Jangan lewatkan 'apa yang terjadi ketika'; garis depan Action Spotting dan kiat-kiat praktis yang diperoleh oleh Playbox.

Halo! Saya Chihiro Nakatani, saat ini sedang magang di Playbox. Fokus penelitian utama saya adalah pengenalan perilaku manusia selama studi doktoral saya (CV IU2 02 6・CVPR2024・IC CV202 3).

Kali ini, saya akan memberikan penjelasan singkat tentang "Action Spotting" – topik yang saat ini mendapat perhatian besar di bidang analisis olahraga – mulai dari latar belakang teknisnya hingga poin-poin kunci untuk implementasi praktis.

Daftar Isi

Apa itu Action Spotting?
SoccerNet di CVSports
Menggunakan Action Spotting di Playbox
Ringkasan dan Prospek Masa Depan

1. Apa itu Action Spotting?

Sementara klasifikasi video konvensional bertujuan untuk mengidentifikasi 'apa yang terjadi sepanjang video', Action Spotting adalah tugas untuk menentukan 'kapan' dan 'aksi apa' yang terjadi dalam video yang panjang. Dalam rekaman olahraga, aksi (peristiwa) seperti tendangan adalah kejadian yang singkat. Tujuan Action Spotting adalah mendeteksi peristiwa-peristiwa 'seketika' ini sepanjang garis waktu dengan akurasi tinggi dan menentukan cap waktu mereka.

SoccerNet Contoh Action Spotting dalam Video

Deteksi Aksi dapat diterapkan di berbagai bidang, termasuk pembuatan highlight reel, analisis taktis, evaluasi pemain untuk pemantauan, dan interaksi penggemar.

2. Action Spotting di CVSports

Saat membahas analisis olahraga, tidak dapat dihindari untuk menyebutkan dataset dan benchmark SoccerNet. Workshop CVSports di CVPR, salah satu konferensi internasional terkemuka dalam bidang penglihatan komputer, menyelenggarakan berbagai kompetisi menggunakan dataset ini. Selain itu, CVSports (CVPR2026) yang akan datang pada bulan Juni akan menampilkan presentasi undangan oleh Mr Atom Scott, CEO Playbox. Tetap pantau!

2.1 Dataset SoccerNet

Dataset ini terdiri dari rekaman dari lebih dari 500 pertandingan yang dikumpulkan dari liga-liga besar Eropa. Dalam beberapa tahun terakhir, selain Action Spotting, pengenalan peran (GSR) – yang melibatkan identifikasi peran individu (pemain lapangan, kiper, wasit, dll.) dan informasi posisi – juga telah dikembangkan sebagai teknologi yang sangat penting untuk analisis taktis dan evaluasi permainan. Playbox juga berpartisipasi dalam kompetisi GSR di CVSports (CVPR2025).

2.2 Anotasi untuk Action Spotting

SoccerNet mendefinisikan 17 kelas aksi sebagai target deteksi untuk Action Spotting. Cap waktu di mana 17 kelas aksi ini terjadi dianotasi pada setiap video. Klasifikasi 17 kelas ini berdasarkan jenis aksi dan fitur yang diperlukan untuk deteksi menghasilkan hal berikut:

[Aksi terkait tendangan]

Gol・Tembakan tepat sasaran・Tembakan melenceng
Fitur Utama: 'Lintasan bola' dan 'Gerakan jaring gawang'

[Aksi tendangan]

Tendangan bebas tidak langsung・Tendangan bebas langsung・Tendangan awal・Sudut・Pembersihan・Lemparan ke dalam
Fitur utama: "Posisi bola" dan "Formasi pemain"

[Penilaian & Lainnya]

Offside, Penalti, Pelanggaran, Kartu kuning, Kartu merah, Kartu kuning → Kartu merah, Pergantian pemain, Bola keluar lapangan
Ciri-ciri utama: "Gerakan wasit" dan "Informasi gerakan detail untuk pemain tertentu"

2.3 Metrik Evaluasi

Action Spotting mengevaluasi seberapa akurat prediksinya dalam menentukan waktu (timestamp) terjadinya aksi target menggunakan mAP (mean Average Precision). Sebuah prediksi timestamp dianggap benar jika berada dalam jendela waktu tertentu (dalam δ detik) dari data sebenarnya. AP (Average Precision) kemudian dihitung untuk setiap kelas berdasarkan presisi dan recall.

Penentuan keberhasilan/kegagalan hasil deteksi dalam Action Spotting

2.4 Model Dasar

T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in Sports Videos menunjukkan kinerja yang sangat kuat dalam Action Spotting. Metode ini, yang dipresentasikan di CVsports '24, mengekstrak fitur temporal dari video yang terdiri dari L frame sambil mendeteksi apakah aksi terjadi pada setiap frame dan aksi apa yang terjadi.Seperti yang ditunjukkan pada diagram berikut, jumlah frame yang besar di mana 'tidak ada aksi yang terjadi' merupakan salah satu tantangan dalam pelatihan.

Diagram Ringkasan T-DEED (https://arturxe2.github.io/projects/T-DEED/)

Melihat hasil pelatihan SoccerNet's Action Spotting menggunakan T-DEED ini, kita melihat bahwa mAP berada di kisaran 60-80, menunjukkan kinerja yang relatif tinggi dan deteksi yang sukses.

mAP pada dataset SoccerNet (https://arturxe2.github.io/projects/T-DEED/)

Namun, karena video SoccerNet adalah rekaman siaran, lingkungan pengambilan gambar antar video serupa, menyarankan bahwa pelatihan relatif mudah bahkan dengan data terbatas. Bagian berikutnya oleh karena itu menyajikan kasus pelatihan aktual menggunakan kamera Playbox, yang diharapkan dapat merekam rekaman dalam lingkungan yang berbeda dari SoccerNet.

3. Deteksi Aksi dengan Kamera Playbox

Kamera Playbox dirancang untuk merekam di lingkungan yang beragam, sehingga menghasilkan variasi kondisi perekaman yang lebih besar antar video dibandingkan SoccerNet. Studi ini menyelidiki volume data yang diperlukan dan faktor lain untuk Action Spotting menggunakan video yang direkam di lingkungan yang beragam tersebut.

3.1 Ringkasan Dataset

Kami menyajikan isi spesifik dataset yang digunakan dalam studi ini.

3.1.1 Data Video Kamera Playbox

Rekaman yang diambil oleh Kamera Playbox mempertahankan keaslian pertandingan sebenarnya, menangkap seluruh lapangan atau aksi spesifik. Contoh video sebenarnya ditampilkan di bawah ini.

Contoh rekaman Playbox Camera

3.1.2 Kelas Aksi

Kali ini, kami fokus pada enam kelas berikut dalam pertandingan sepak bola.

Nama Kelas	Deskripsi
ck	Tendangan Sudut
tendangan awal	tendangan awal
Gol	Adegan gol
Tendangan	Tembakan
FK	Tendangan bebas
tendangan penalti	tendangan penalti

3.1.3 Metode Anotasi

Anotasi manual dilakukan oleh anotator manusia. Setiap video ditinjau frame demi frame, dengan pencatatan waktu untuk aksi spesifik (misalnya, saat bola ditendang, saat bola melewati garis gawang).

3.1.4 Skala Data

Volume total data yang digunakan untuk analisis adalah sebagai berikut.

Jumlah total video: 345
Unit anotasi: Titik kejadian untuk keenam kelas di atas dalam setiap video

Dengan menggunakan dataset ini, kami telah menetapkan dasar untuk mengekstrak sorotan pertandingan secara otomatis dan menghasilkan data statistik dari rekaman kamera Playbox.

3.2 Hasil

Pelatihan dengan 345 video menghasilkan hasil bahwa "sistem ini bekerja dengan sangat baik pada permainan dengan pola tertentu, tetapi masih ada ruang untuk perbaikan pada gerakan mendadak." Khususnya, tendangan awal dan tendangan bebas terdeteksi dengan akurasi relatif tinggi.

3.2.1 Hasil mAP

Pertama, kami menganalisis mAP untuk setiap kelas.

Kelas	mAP
Rata-rata Keseluruhan	0.43
kick off	0,71
Tendangan	0,59
ck (Tendangan Sudut)	0,51
FK (Tendangan Bebas)	0.39
gol	0.38
PK (Tendangan Penalti)	0.00

3.2.2 Pengamatan dari Hasil

Situasi bola mati menunjukkan tingkat presisi yang tinggi

kick off (0.71) dan ck (0,51). Hal ini kemungkinan besar disebabkan oleh kemudahan belajar karena pola yang jelas "dimulai dari pemain yang diam".
Kesulitan deteksi gol

goal (0.38) merupakan tindakan kompleks yang melibatkan dua peristiwa yang saling terkait: "melakukan tendangan" dan "tendangan tersebut menghasilkan gol". Ketergantungan ini kemungkinan membuat proses pembelajaran menjadi lebih sulit.

3.2.3 Visualisasi hasil inferensi (video)

Silakan lihat contoh video deteksi tembakan dan ck yang sebenarnya.

Hasil deteksi tembakan dalam rekaman yang diambil oleh kamera Playbox

Hasil deteksi tendangan balik dalam rekaman yang diambil oleh kamera Playbox

3.3 Analisis Terperinci

3.3.1 Volume Data (Jumlah Anotasi) dan mAP

"Berapa banyak anotasi yang diperlukan untuk mencapai akurasi yang baik?" adalah salah satu pertanyaan yang paling sering diajukan. Untuk merangkum, meningkatkan jumlah video (anotasi) meningkatkan mAP, tetapi saturasi dimulai pada titik tertentu. Jumlah video aktual dan mAP untuk kelas tembakan ditampilkan di bawah ini, menunjukkan bahwa efisiensi peningkatan akurasi melambat seiring bertambahnya jumlah video.

Hubungan antara Jumlah Video Latihan dan mAP (shot)

3.3.2 Kecepatan bingkai (FPS) dan mAP

Dalam Action Spotting, jumlah frame yang membentuk sebuah video sangat penting untuk memahami konteks adegan yang esensial untuk deteksi. Misalnya, deteksi gol seharusnya tidak hanya menggunakan visual bola yang menggoyang jaring, tetapi juga konteks adegan tambahan seperti tim yang merayakan atau tim lawan yang kecewa.

Hubungan antara jumlah frame per video dan mAP (shot)

Seseorang mungkin menyimpulkan bahwa "cukup dengan meningkatkan jumlah frame per video"... tetapi hal ini tidak selalu benar. Misalnya, seperti yang ditunjukkan pada grafik di atas, meningkatkan jumlah frame per video dapat menyebabkan saturasi mAP pada titik tertentu, diikuti oleh penurunan mAP setelahnya. Hasil serupa tercatat dalam makalah T-DEED (Tabel 6 (d)). Berbagai alasan mungkin menjadi penyebabnya; salah satu kemungkinan adalah bahwa meskipun meningkatkan jumlah frame memberikan lebih banyak informasi, hal itu juga membuat proses pembelajaran menjadi lebih sulit.

Meningkatkan jumlah frame per video juga meningkatkan beban komputasi yang diperlukan untuk inferensi. Oleh karena itu, menyesuaikan jumlah frame per video sesuai dengan kinerja yang dibutuhkan, kecepatan inferensi, dan jenis aksi yang ditargetkan diyakini dapat berkontribusi pada peningkatan kinerja.

3.4 Uji Coba dan Kesalahan dengan Playbox

3.4.1 Pengaturan FPS Tetap untuk T-DEED

Pertama, kami memverifikasi apakah overfitting dapat terjadi pada video tunggal tertentu. Secara umum, jika model dibangun dengan benar, seharusnya model tersebut cocok sempurna dengan jumlah data yang kecil. Namun, hasilnya adalah kegagalan. Bahkan saat fokus pada video tunggal, akurasi tidak meningkat sama sekali. Penyelidikan mengungkapkan titik buta yang tidak terduga.

Penyebabnya adalah FPS (frame rate) video tersebut dikunci secara internal dalam TDEED, berbeda dengan FPS asli video Playbox. Dalam mengenali aksi berurutan, ketidaksesuaian aliran waktu (FPS) sangat kritis. Setelah menyadari spesifikasi ini, kami menyesuaikan pengaturan FPS secara tepat untuk sesuai dengan format video Playbox, dan proses pembelajaran berjalan sukses.Prinsip debugging dasar "memeriksa overfitting pada unit terkecil" akhirnya terbukti sebagai rute paling langsung untuk mengidentifikasi kesalahan spesifikasi fundamental ini.

3.4.2 Dampak Model yang Telah Dilatih dan Augmentasi Data

Sebagai catatan, kami juga mendokumentasikan upaya yang dilakukan untuk meningkatkan akurasi yang terbukti tidak efektif.

Penyesuaian Model SoccerNet yang Telah Dilatih: Kami menyesuaikan model yang telah dilatih pada SoccerNet, namun hal ini tidak menghasilkan peningkatan akurasi yang signifikan untuk video Playbox yang bersangkutan.
Penerapan Augmentasi Data: Kami menguji semua opsi augmentasi data yang dapat dikonfigurasi di TDEED, tetapi hal ini juga memiliki dampak kecil pada hasil.

4. Ringkasan dan Prospek Masa Depan

Terima kasih telah membaca hingga sini!

Poin Utama

Action Spotting adalah teknologi yang mendeteksi 'kapan' dan 'apa' yang terjadi.
SoccerNet adalah dataset video siaran yang terkenal, dengan berbagai metode yang diusulkan, termasuk T-DEED.
Kami mengevaluasi kinerja Action Spotting pada rekaman yang diambil oleh kamera Playbox.

Prospek Masa Depan

Ke depan, peningkatan kinerja lebih lanjut diharapkan melalui Action Spotting multi-modal, yang menggabungkan tidak hanya video tetapi juga audio (volume sorakan) dan teks (data komentar).