אל תחמיצו את 'מתי ומה קרה'. החידושים האחרונים בתחום זיהוי פעולות וטיפים מעשיים שנצברו על ידי Playbox.
שלום! אני צ'י히רו נקטאני, מתמחה כרגע ב-Playbox. תחומי המחקר העיקריים שלי הם זיהוי התנהגות אנושית במהלך לימודי הדוקטורט שלי (CVIU2026・CVPR2024・ICCV2023).
הפעם אציג הסבר תמציתי על "זיהוי פעולות" – נושא שזוכה לתשומת לב רבה בתחום ניתוח הספורט – ואסקור את כל ההיבטים, החל מהרקע הטכני ועד לנקודות המרכזיות ליישום מעשי.
תוכן העניינים
- מהו זיהוי פעולות?
- SoccerNet ב-CVSports
- שימוש בזיהוי פעולות ב-Playbox
- סיכום ותחזית לעתיד
1. מהו זיהוי פעולות?
בעוד שסיווג וידאו קונבנציונלי נועד לזהות "מה קורה לאורך כל הסרטון", זיהוי פעולות הוא משימה של איתור "מתי" ו"איזו פעולה" התרחשה בתוך סרטון ארוך. בסרטוני ספורט, פעולות (אירועים) כמו בעיטות הן אירועים חולפים. המטרה של זיהוי פעולות היא לזהות "אירועים מיידיים" אלה לאורך ציר הזמן ברמת דיוק גבוהה ולציין את חותמות הזמן שלהם.
SoccerNet דוגמה לזיהוי פעולות בסרטון
זיהוי פעולות יכול להיות מיושם בתחומים שונים, כולל יצירת קטעי וידאו עם רגעי שיא, ניתוח טקטי, הערכת שחקנים לצורך סקאוטינג ומעורבות אוהדים.
2. זיהוי פעולות ב-CVSports
כאשר דנים בניתוח ספורט, אי אפשר שלא להזכיר את מאגר הנתונים והמדד של SoccerNet. סדנת CVSports ב-CVPR, אחת מהכנסים הבינלאומיים המובילים בתחום הראייה הממוחשבת, מארחת תחרויות שונות המשתמשות במאגר נתונים זה. בנוסף, ב-CVSports (CVPR2026) הקרוב שייערך ביוני, יתארח מר אטום סקוט, מנכ"ל Playbox, להרצאה. הישארו מעודכנים!
2.1 מאגר הנתונים SoccerNet
מאגר זה כולל קטעי וידאו מ-500 משחקים שנאספו מהליגות הגדולות באירופה. בשנים האחרונות, מעבר לזיהוי פעולות, זיהוי מצבים (GSR) – הכולל זיהוי תפקידו של כל אדם (שחקן שדה, שוער, שופט וכו') ומידע על מיקומו – הפך לטכנולוגיה משמעותית ביותר לניתוח טקטי ולהערכת משחק. Playbox משתתפת גם בתחרות GSR ב-CVSports (CVPR2025).
2.2 הערות ל-Action Spotting
SoccerNet מגדיר 17 סוגי פעולות כיעדי זיהוי עבור Action Spotting. חותמות הזמן שבהן מתרחשים 17 סוגי הפעולות הללו מתועדות בכל סרטון. סיווג 17 הסוגים הללו לפי סוג הפעולה והתכונות הנדרשות לזיהוי מניב את התוצאות הבאות:
[פעולות הקשורות לבעיטות]
- שער・בעיטות למטרה・בעיטות מחוץ למטרה
- תכונות עיקריות: 'מסלול הכדור' ו'תנועת רשת השער'
[פעולות מסוג בעיטה]
- בעיטה חופשית עקיפה・בעיטה חופשית ישירה・בעיטת פתיחה・קרן・הרחקת כדור・הכנסת כדור
- תכונות עיקריות: "מיקום הכדור" ו"מערך השחקנים"
[הקשורים לשיקול דעת ונוספים]
- נבדל, פנדל, עבירה, כרטיס צהוב, כרטיס אדום, כרטיס צהוב → כרטיס אדום, חילוף, כדור מחוץ למגרש
- מאפיינים עיקריים: "מחוות השופט" ו"מידע מפורט על תנועות שחקנים ספציפיים"
2.3 מדדי הערכה
Action Spotting מעריך את מידת הדיוק שבה חזה מתי (חותמת זמן) התרחשה הפעולה היעד באמצעות mAP (דיוק ממוצע). חותמת זמן חזויה נחשבת נכונה אם היא נופלת בתוך חלון זמן מסוים (בתוך δ שניות) מהאמת בשטח. לאחר מכן מחושב AP (דיוק ממוצע) עבור כל קטגוריה על בסיס דיוק והיזכרות.
קביעת הצלחה/כישלון של תוצאות הזיהוי ב-Action Spotting
2.4 מודלים בסיסיים
T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in Sports Videos (מקודד-מפענח משפר הבחנה זמנית לזיהוי אירועים מדויק בסרטוני ספורט) מפגין ביצועים חזקים במיוחד ב-Action Spotting. שיטה זו, שהוצגה ב-CVsports '24, רוכשת תכונות זמניות מסרטונים המורכבים מ-L פריימים, תוך זיהוי עבור כל פריים האם מתרחשת פעולה ואם כן, איזו פעולה.כפי שממחיש התרשים הבא, המספר הרב של פריימים שבהם "לא מתרחשת פעולה" מהווה את אחד האתגרים באימון.
תרשים סקירה כללית של T-DEED (https://arturxe2.github.io/projects/T-DEED/)
כאשר בוחנים את תוצאות האימון של זיהוי פעולות ב-SoccerNet באמצעות T-DEED זה, אנו רואים שה-mAP הוא כ-60-80, מה שמעיד על ביצועים גבוהים יחסית וזיהוי מוצלח.
mAP על מערך הנתונים SoccerNet (https://arturxe2.github.io/projects/T-DEED/)
עם זאת, מכיוון שסרטוני SoccerNet הם קטעי שידור, סביבות הצילום בין הסרטונים דומות, מה שמרמז שהאימון הוא פשוט יחסית גם עם נתונים מוגבלים. לכן, בסעיף הבא מוצג מקרה אימון אמיתי באמצעות מצלמת Playbox, שצפויה לצלם קטעים בסביבות שונות מ-SoccerNet.
3. זיהוי פעולות באמצעות מצלמת Playbox
מצלמת Playbox תוכננה לצילום בסביבות מגוונות, מה שמביא לשונות רבה יותר בתנאי הצילום בין הסרטונים בהשוואה ל-SoccerNet. מחקר זה בחן את נפח הנתונים הנדרש וגורמים נוספים לזיהוי פעולות באמצעות סרטונים שצולמו בסביבות מגוונות כאלה.
3.1 סקירה כללית של מערך הנתונים
להלן תוכן ספציפי של מערך הנתונים ששימש במחקר זה.
3.1.1 נתוני וידאו של מצלמת Playbox
הצילומים שצולמו במצלמת Playbox משמרים את האותנטיות של המשחקים האמיתיים, ומתעדים את המגרש כולו או מהלכים ספציפיים. להלן דוגמה לסרטון אמיתי.
דוגמה לצילומים של מצלמת Playbox
3.1.2 סוגי פעולות
הפעם, אנו מתמקדים בששת סוגי הפעולות הבאים במשחק כדורגל.
| שם הקטגוריה | תיאור |
| ck | בעיטת קרן |
| בעיטת פתיחה | בעיטת פתיחה |
| שער | סצנת שער |
| בעיטה | בעיטה |
| FK | בעיטה חופשית |
| בעיטת עונשין | בעיטת עונשין |
3.1.3 שיטת התיעוד
ההערות בוצעו באופן ידני על ידי מעריכים אנושיים. כל סרטון נבדק פריים אחר פריים, עם תיעוד של חותמות זמן עבור פעולות ספציפיות (למשל, הרגע שבו הכדור נבעט, הרגע שבו הוא חצה את קו השער).
3.1.4 סולם נתונים
היקף הנתונים הכולל ששימש לניתוח הוא כדלקמן.
-
מספר הכולל של הסרטונים: 345
-
יחידות תיוג: נקודות התרחשות עבור שש הקטגוריות הנ"ל בכל סרטון
בעזרת מערכי נתונים אלה, הקמנו את הבסיס לחילוץ אוטומטי של רגעי השיא במשחקים וליצירת נתונים סטטיסטיים מתוך צילומי מצלמת Playbox.
3.2 תוצאות
האימון עם 345 סרטונים הניב את התוצאה כי "הביצועים טובים במיוחד במשחקים עם תבניות ספציפיות, אך יש מקום לשיפור בתנועות פתאומיות". בפרט, בעיטות פתיחה ומצבים נייחים מזוהים ברמת דיוק גבוהה יחסית.
3.2.1 תוצאות mAP
ראשית, נבחן את ה-mAP עבור כל קטגוריה.
| קטגוריה | mAP |
| ממוצע כולל | 0.43 |
| התחלה | 0.71 |
| זריקה | 0.59 |
| ck (בעיטת קרן) | 0.51 |
| FK (בעיטה חופשית) | 0.39 |
| שער | 0.38 |
| pk (בעיטת עונשין) | 0.00 |
3.2.2 תצפיות מהתוצאות
-
מצבים נייחים מפגינים דיוק גבוה
kick off(0.71) וck(0.51). ככל הנראה, אלה נהנו מקלות הלמידה בשל הדפוס הברור של "התחלה משחקן נייח". -
הקושי בזיהוי שערים
goal(0.38) היא פעולה מורכבת הכרוכה בשני אירועים משולבים: "לבעוט" ו"הבעיטה מובילה לשער". תלות הדדית זו כנראה הקשתה על הלמידה.
3.2.3 הדמיה של תוצאות ההסקת מסקנות (וידאו)
אנא צפו בדוגמאות וידאו של זיהויי זריקות ו-ck בפועל.
תוצאות זיהוי הבעיטה בצילומים שצולמו על ידי מצלמת Playbox
תוצאות זיהוי בעיטה נגדית בצילומים שצולמו על ידי מצלמת Playbox
3.3 ניתוח מפורט
3.3.1 נפח נתונים (מספר הערות) ו-mAP
"כמה הערות נדרשות כדי להשיג דיוק טוב?" היא אחת השאלות הנפוצות ביותר. לסיכום, הגדלת מספר הסרטונים (ההערות) משפרת את ה-mAP, אך בשלב מסוים מתחיל רוויה. מספר הסרטונים בפועל וה-mAP עבור קטגוריית הצילום מוצגים להלן, ומראים כי יעילות שיפור הדיוק מאטה ככל שמספר הסרטונים גדל.
הקשר בין מספר סרטוני האימון ל-mAP (צילום)
3.3.2 קצב פריימים (FPS) ו-mAP
ב-Action Spotting, מספר הפריימים המרכיבים סרטון הוא קריטי להבנת הקשר הסצנה החיוני לזיהוי. לדוגמה, זיהוי שער צריך באופן אידיאלי להשתמש לא רק בתמונה של הכדור המטלטל את הרשת, אלא גם בהקשר סצנה משלים, כגון הקבוצה החוגגת או הקבוצה היריבה המאוכזבת.
הקשר בין מספר הפריימים בסרטון ל-mAP (זריקה)
אפשר להסיק ש"די בהגדלת מספר הפריימים בסרטון"... אך זה לא בהכרח המצב. לדוגמה, כפי שמוצג בתרשים לעיל, הגדלת מספר הפריימים בסרטון עלולה להוביל לרוויה של mAP בנקודה מסוימת, ולאחר מכן לירידה ב-mAP. תוצאות דומות מתועדות במאמר T-DEED (טבלה 6 (ד)). ישנן סיבות שונות אפשריות לכך; סיבה אחת אפשרית היא שהגדלת מספר הפריימים מספקת מידע רב יותר, אך גם מקשה על הלמידה.
הגדלת מספר הפריימים לכל סרטון מגדילה גם את העומס החישובי הנדרש להסקת מסקנות. לכן, התאמת מספר הפריימים לכל סרטון בהתאם לביצועים הנדרשים, למהירות ההסקת מסקנות ולסוג הפעולה הממוקדת, נחשבת כגורם התורם לשיפור הביצועים.
3.4 ניסוי וטעייה עם Playbox
3.4.1 הגדרת FPS קבועה עבור T-DEED
ראשית, אימתנו אם התאמה יתר עלולה להתרחש עבור סרטון בודד ספציפי. בדרך כלל, אם המודל בנוי כהלכה, הוא אמור להתאים באופן מושלם לכמות קטנה של נתונים. עם זאת, התוצאה הייתה כישלון. גם כאשר התמקדנו בסרטון בודד, הדיוק לא השתפר כלל. חקירה גילתה נקודת תורפה בלתי צפויה.
הסיבה לכך הייתה שה-FPS (קצב הפריימים) של הסרטון היה קבוע באופן פנימי בתוך TDEED, ושונה מה-FPS המובנה של סרטוני Playbox. בזיהוי פעולות רציפות, חוסר התאמה בזרימת הזמן (FPS) הוא קריטי. לאחר שגילינו מפרט זה, התאמנו את הגדרת ה-FPS באופן מתאים לפורמט הווידאו של Playbox, והלמידה התקדמה בהצלחה.עקרון הבסיסי של איתור באגים, "ראשית יש לאמת התאמה יתר ביחידה הקטנה ביותר", התגלה בסופו של דבר כדרך הישירה ביותר לזיהוי שגיאה בסיסית זו במפרט.
3.4.2 השפעת מודלים שהוכשרו מראש והגדלת נתונים
כתובנות, אנו מתעדים גם ניסיונות לשפר את הדיוק שהתבררו כלא יעילים.
-
כיוונון עדין של המודל המוכשר מראש של SoccerNet: כיוונו עדין מודל שהוכשר מראש ב-SoccerNet, אך הדבר לא הביא לשיפור ניכר בדיוק עבור סרטוני Playbox המדוברים.
-
יישום הגדלת נתונים: בדקנו את כל אפשרויות הגדלת הנתונים הניתנות להגדרה ב-TDEED, אך גם לכך הייתה השפעה מועטה על התוצאות.
4. סיכום ותחזית לעתיד
תודה שקראתם עד כאן!
נקודות מרכזיות
- Action Spotting היא טכנולוגיה המזהה 'מתי' ו'מה' התרחש.
- SoccerNet הוא מאגר נתונים ידוע של שידורי וידאו, עם שיטות שונות שהוצעו, כולל T-DEED.
- הערכנו את ביצועי Action Spotting על קטעי וידאו שצולמו במצלמות Playbox.
תחזיות לעתיד
בעתיד, צפויות שיפורים נוספים בביצועים באמצעות Action Spotting רב-מודאלי, המשלב לא רק וידאו אלא גם אודיו (עוצמת העידוד) וטקסט (נתוני פרשנות).
