不要错过 "什么时候发生了什么";行动发现的前沿和 Playbox 获得的实用技巧。
你好!我是中谷千洋,目前在Playbox担任实习生。平日主要从事博士课程中关于人类行为识别的研究(CVIU2026·CVPR2024·ICCV2023)。
本次将聚焦近年来在运动分析领域备受瞩目的"动作识别(Action Spotting)"技术,从技术背景到实用化要点进行精炼讲解。
目录
- 什么是动作检测?
- SoccerNet在CSports中的应用
- Playbox平台中的动作识别应用
- 总结与未来展望
1. 什么是动作定位?
与常规视频分类任务(识别"整个视频中发生了什么")不同,动作检测(Action Spotting)旨在精确定位"长视频中何时发生何种动作"。在体育影像中,射门等动作(事件)往往只是瞬间发生。该技术的核心目标,正是沿时间轴高精度检测这些"瞬间事件"并标注具体时间戳。
SoccerNet 视频动作检测示例
动作检测技术可广泛应用于赛事集锦制作、战术分析、球员评估(用于球探工作)及球迷互动等领域。
2. CVSports中的动作检测
谈及体育赛事分析,SoccerNet数据集与基准测试是不可回避的核心议题。在计算机视觉领域顶级国际会议CVPR的"CVSports"研讨会上,基于该数据集的各类竞赛持续开展。值得关注的是,今年6月举办的CVSports(CVPR2026)将特邀Playbox首席执行官Atom Scott先生进行主题演讲,敬请期待!
2.1 SoccerNet数据集
该数据集由欧洲主要联赛超过500场比赛的影像构成。近年来,除动作识别外,状态感知(GSR)技术——即识别球员角色(场上球员、守门员、裁判等)及位置信息——也已成为战术分析与比赛评估的关键技术。Playbox公司亦参与了CVSports(CVPR2025)的GSR竞赛。
2.2 动作识别注释
SoccerNet为动作识别定义了17类动作检测目标。每段视频均标注了这17类动作的发生时间戳。若按动作类型及检测所需特征分类,可归纳如下:
[射门类动作]
- 进球(Goal)・射正(Shots on target)・射偏(Shots off target)
- 关键特征:"球体轨迹"与"球网位移"
[踢球类动作]
- 间接任意球(Indirect free-kick)・直接任意球(Direct free-kick)・开球(Kick-off)・角球(Corner)・解围(Clearance)・掷界外球(Throw-in)
- 重要特征:"球的位置"与"球员阵型"
[裁判判罚类及其他]
- 越位(Offside)・点球(Penalty)・犯规(Foul)・黄牌(Yellow card)・红牌(Red card)・黄牌→红牌(Yellow->red card)・球员换人(Substitution)・球出界(Ball out of play)
- 重要特征:"裁判手势"、"特定球员的详细动作信息"
2.3 评估指标
在动作识别中,通过mAP(平均平均精度)评估对目标动作"何时(时间戳)"发生的预测准确度。若预测时间戳与真实值(Ground Truth)偏差在限定时间内(δ秒以内),则判定为正确。各分类的AP(平均精度)由精确率与召回率计算得出。
动作检测中的结果判定规则
2.4 基线模型
在动作识别领域表现卓越的是 T-DEED:体育视频精准事件检测的时间可辨性增强编码解码器。该方法发表于 CVsports '24,通过从由 L 帧构成的视频中提取时间序列特征,同时检测每帧的"是否发生动作"及"发生何种动作"。如下图所示,"无动作发生"的帧数量庞大,这成为训练过程中的难点之一。
T-DEED 架构示意图(https://arturxe2.github.io/projects/T-DEED/)
实际采用T-DEED对SoccerNet的动作检测任务进行训练后,mAP值稳定在60-80区间,表明系统以较高精度成功实现了动作检测。
SoccerNet数据集mAP结果(https://arturxe2.github.io/projects/T-DEED/)
但需注意,SoccerNet视频源自转播素材,各视频拍摄环境高度相似,因此即使数据量较少也能较易完成训练。下文将介绍实际应用案例——针对Playbox摄像机在多样化环境下的训练实例,其拍摄场景与SoccerNet存在显著差异。
3. Playbox摄像机的动作检测
Playbox Camera 面向多样化环境拍摄设计,其视频间的拍摄环境差异远大于 SoccerNet。本次针对此类复杂拍摄环境下的动作检测,开展了所需数据量等要素的调研。
3.1 数据集概述
现将具体介绍本次使用的数据集内容。
3.1.1 Playbox Camera影像数据
Playbox Camera拍摄的影像完整保留了实际比赛的临场感,既能捕捉整个球场全景,也能聚焦特定比赛瞬间。以下展示实际视频片段。
Playbox Camera拍摄视频示例
3.1.2 动作分类
本次研究聚焦于足球比赛中的以下6类动作:
| 类名 | 内容 |
| ck | 角球 |
| 开球 | 开球 |
| 进球 | 进球场景 |
| 射门 | シュート |
| 任意球 | 自由球 |
| penalty kick | 点球 |
3.1.3 标注方法
我们实施了人工标注。通过逐帧查看每个视频,记录特定动作(例如:踢球瞬间、越过球门线瞬间)发生的时间戳。
3.1.4 数据规模
用于分析的数据总量如下:
-
总视频数量:345部
-
标注单位:每段视频中上述6类事件的发生点
通过这些数据集,我们为从Playbox Camera影像中自动提取比赛精彩片段及生成统计数据奠定了基础。
3.2 结果
基于345段视频进行训练后,结果显示系统"对具有特定模式的动作表现优异,但对突发性动作仍有改进空间"。尤其在开球信号和定位球场景中,检测精度相对较高。
3.2.1 mAP评估结果
首先确认各类别的mAP值。
| 类别 | mAP |
| 整体平均 | 0.43 |
| 开球 | 0.71 |
| 射门 | 0.59 |
| 角球 | 0.51 |
| 任意球 | 0.39 |
| 进球 | 0.38 |
| 点球 (Penalty Kick) | 0.00 |
3.2.2 从结果中可见的考察
-
定位球战术展现出高精度
kick off(0.71) 及ck(0.51)的mAP值较高。这可能是因为"球员从静止状态开始"的明确模式使得学习过程较为容易。 -
"进球"判定的难度
goal(0.38)的较低表现,源于其涉及"射门动作"与"进球结果"两个事件的复杂交互,导致学习难度显著提升。
3.2.3 推理结果可视化(视频)
请通过视频查看实际射门(shot)与角球(ck)的检测示例。
Playbox摄像机拍摄视频中的射门检测结果
Playbox摄像机拍摄视频中的角球检测结果
3.3 详细解析
3.3.1 数据量(标注数量)与mAP
"需要多少标注才能提升精度?"是最常见的问题之一。结论是:随着视频数量(标注数量)增加,mAP会持续提升,但达到一定阈值后将进入饱和状态。下图展示了实际视频数量与shot类别的mAP关系,可见精度提升效率随视频数量增加而逐渐放缓。
训练视频数量与mAP(shot)的关系
3.3.2 帧数(FPS)与mAP
在动作检测中,视频的帧数构成对理解关键场景上下文至关重要。例如,进球检测不仅需要捕捉球体震动球网的视觉特征,还需辅助利用得分方欢庆或失分方懊悔等场景上下文信息。
单视频帧数与mAP(shot)的关系
虽然看似得出"只需增加单视频帧数即可"的结论,但实际情况并非如此。如上图所示,当单视频帧数持续增加时,mAP会在某个阶段达到饱和,之后反而可能下降。T-DEED论文中也记载了类似结果(表6(d))。其原因可能有多种,但关键在于:帧数增加虽能获取更多信息,却也导致学习难度提升。
由于单视频帧数增加将导致推理所需计算量上升,因此根据所需性能、推理速度及目标动作类型调整单视频帧数,有望有效提升系统性能。
3.4 Playbox的试错过程
3.4.1 T-DEED 的固定帧率设置
首先验证了"能否针对特定单视频实现过拟合"。通常模型若构建正确,应能完美适配少量数据。但结果却以失败告终——即使聚焦单个视频,精度也毫无提升。调查后发现了一个意外盲点:
问题根源在于TDEED内部固定了视频的帧率(FPS),与Playbox视频的原始帧率存在偏差。在时间序列动作识别中,时间流速(帧率)的不一致性具有致命影响。当我们意识到这一规格问题,并根据Playbox视频格式调整帧率设置后,模型学习进程便顺利推进。"首先在最小单元验证过拟合"这一调试基本原则,最终成为发现根本性规格错误的捷径。
3.4.2 预训练模型与数据扩展的效果
以下记录为提升精度尝试但未见成效的方案:
-
SoccerNet预训练模型的微调:对Soccernet预训练模型进行微调后,针对本次Playbox视频数据未观察到显著精度提升。
-
数据增强(Data Augmentation)应用:尝试了TDEED支持的所有数据增强方案,但同样对结果影响甚微。
4. 总结与未来展望
感谢您阅读至此!
本次要点
- 动作识别技术旨在检测"何时"、"何事"发生。
- SoccerNet是著名的转播影像数据集,已有T-DEED等多项方法被提出。
- 通过Playbox摄像机拍摄的影像验证动作检测技术性能。
未来展望
未来有望通过结合影像、音频(欢呼声强度)及文本(实况解说数据)等多模态数据的动作检测技术,实现更高性能的突破。
