不要错过 "什么时候发生了什么";行动发现的前沿和 Playbox 获得的实用技巧。

不要错过 "什么时候发生了什么";行动发现的前沿和 Playbox 获得的实用技巧。

Date published:2028/2/29

你好!我是中谷千洋,目前在Playbox担任实习生。平日主要从事博士课程中关于人类行为识别的研究(CVIU2026·CVPR2024·ICCV2023)。

本次将聚焦近年来在运动分析领域备受瞩目的"动作识别(Action Spotting)"技术,从技术背景到实用化要点进行精炼讲解。

目录

  1. 什么是动作检测?
  2. SoccerNet在CSports中的应用
  3. Playbox平台中的动作识别应用
  4. 总结与未来展望


1. 什么是动作定位?

与常规视频分类任务(识别"整个视频中发生了什么")不同,动作检测(Action Spotting)旨在精确定位"长视频中何时发生何种动作"。在体育影像中,射门等动作(事件)往往只是瞬间发生。该技术的核心目标,正是沿时间轴高精度检测这些"瞬间事件"并标注具体时间戳。

SoccerNet 视频动作检测示例

动作检测技术可广泛应用于赛事集锦制作战术分析球员评估(用于球探工作及球迷互动等领域


2. CVSports中的动作检测

谈及体育赛事分析,SoccerNet数据集与基准测试是不可回避的核心议题。在计算机视觉领域顶级国际会议CVPR的"CVSports"研讨会上,基于该数据集的各类竞赛持续开展。值得关注的是,今年6月举办的CVSports(CVPR2026)将特邀Playbox首席执行Atom Scott先生进行主题演讲,敬请期待!

2.1 SoccerNet数据集

该数据集由欧洲主要联赛超过500场比赛的影像构成。近年来,除动作识别外,状态感知(GSR)技术——即识别球员角色(场上球员、守门员、裁判等)及位置信息——也已成为战术分析与比赛评估的关键技术。Playbox公司亦参与了CVSports(CVPR2025)的GSR竞赛。

2.2 动作识别注释

SoccerNet为动作识别定义了17类动作检测目标。每段视频均标注了这17类动作的发生时间戳。若按动作类型及检测所需特征分类,可归纳如下:

[射门类动作]

  • 进球(Goal)・射正(Shots on target)・射偏(Shots off target)
  • 关键特征:"球体轨迹"与"球网位移"

 [踢球类动作]

  • 间接任意球(Indirect free-kick)・直接任意球(Direct free-kick)・开球(Kick-off)・角球(Corner)・解围(Clearance)・掷界外球(Throw-in)
  • 重要特征:"球的位置"与"球员阵型"

[裁判判罚类及其他]

  • 越位(Offside)・点球(Penalty)・犯规(Foul)・黄牌(Yellow card)・红牌(Red card)・黄牌→红牌(Yellow->red card)・球员换人(Substitution)・球出界(Ball out of play)
  • 重要特征:"裁判手势"、"特定球员的详细动作信息"

2.3 评估指标

在动作识别中,通过mAP(平均平均精度)评估对目标动作"何时(时间戳)"发生的预测准确度。若预测时间戳与真实值(Ground Truth)偏差在限定时间内(δ秒以内),则判定为正确。各分类的AP(平均精度)由精确率与召回率计算得出。

undefined

动作检测中的结果判定规则

2.4 基线模型

在动作识别领域表现卓越的是 T-DEED:体育视频精准事件检测的时间可辨性增强编码解码器。该方法发表于 CVsports '24,通过从由 L 帧构成的视频中提取时间序列特征,同时检测每帧的"是否发生动作"及"发生何种动作"。如下图所示,"无动作发生"的帧数量庞大,这成为训练过程中的难点之一。

tdeed.webp

T-DEED 架构示意图(https://arturxe2.github.io/projects/T-DEED/

实际采用T-DEED对SoccerNet的动作检测任务进行训练后,mAP值稳定在60-80区间,表明系统以较高精度成功实现了动作检测。 

undefined

SoccerNet数据集mAP结果(https://arturxe2.github.io/projects/T-DEED/

  但需注意,SoccerNet视频源自转播素材,各视频拍摄环境高度相似,因此即使数据量较少也能较易完成训练。下文将介绍实际应用案例——针对Playbox摄像机在多样化环境下的训练实例,其拍摄场景与SoccerNet存在显著差异。


3. Playbox摄像机的动作检测

Playbox Camera 面向多样化环境拍摄设计,其视频间的拍摄环境差异远大于 SoccerNet。本次针对此类复杂拍摄环境下的动作检测,开展了所需数据量等要素的调研。

3.1 数据集概述

现将具体介绍本次使用的数据集内容。

3.1.1 Playbox Camera影像数据

Playbox Camera拍摄的影像完整保留了实际比赛的临场感,既能捕捉整个球场全景,也能聚焦特定比赛瞬间。以下展示实际视频片段。

Playbox Camera拍摄视频示例

3.1.2 动作分类

本次研究聚焦于足球比赛中的以下6类动作

类名 内容
ck 角球
开球 开球
进球 进球场景
射门 シュート
任意球 自由球
penalty kick 点球

3.1.3 标注方法

我们实施了人工标注。通过逐帧查看每个视频,记录特定动作(例如:踢球瞬间、越过球门线瞬间)发生的时间戳

3.1.4 数据规模

用于分析的数据总量如下:

  • 总视频数量:345部

  • 标注单位:每段视频中上述6类事件的发生点

通过这些数据集,我们为从Playbox Camera影像中自动提取比赛精彩片段及生成统计数据奠定了基础。

3.2 结果

基于345段视频进行训练后,结果显示系统"对具有特定模式的动作表现优异,但对突发性动作仍有改进空间"。尤其在开球信号和定位球场景中,检测精度相对较高。

3.2.1 mAP评估结果

首先确认各类别的mAP值。

类别 mAP
整体平均 0.43
开球 0.71
射门 0.59
角球 0.51
任意球 0.39
进球 0.38
点球 (Penalty Kick) 0.00

3.2.2 从结果中可见的考察

  • 定位球战术展现出高精度

    kick off (0.71) 及 ck (0.51)的mAP值较高。这可能是因为"球员从静止状态开始"的明确模式使得学习过程较为容易。

  • "进球"判定的难度

    goal (0.38)的较低表现,源于其涉及"射门动作"与"进球结果"两个事件的复杂交互,导致学习难度显著提升。

3.2.3 推理结果可视化(视频)

请通过视频查看实际射门(shot)与角球(ck)的检测示例。

Playbox摄像机拍摄视频中的射门检测结果

Playbox摄像机拍摄视频中的角球检测结果

3.3 详细解析

3.3.1 数据量(标注数量)与mAP

"需要多少标注才能提升精度?"是最常见的问题之一。结论是:随着视频数量(标注数量)增加,mAP会持续提升,但达到一定阈值后将进入饱和状态。下图展示了实际视频数量与shot类别的mAP关系,可见精度提升效率随视频数量增加而逐渐放缓。

undefined

训练视频数量与mAP(shot)的关系

3.3.2 帧数(FPS)与mAP

在动作检测中,视频的帧数构成对理解关键场景上下文至关重要。例如,进球检测不仅需要捕捉球体震动球网的视觉特征,还需辅助利用得分方欢庆或失分方懊悔等场景上下文信息。

undefined

单视频帧数与mAP(shot)的关系

虽然看似得出"只需增加单视频帧数即可"的结论,但实际情况并非如此。如上图所示,当单视频帧数持续增加时,mAP会在某个阶段达到饱和,之后反而可能下降。T-DEED论文中也记载了类似结果(表6(d))。其原因可能有多种,但关键在于:帧数增加虽能获取更多信息,却也导致学习难度提升。

由于单视频帧数增加将导致推理所需计算量上升,因此根据所需性能、推理速度及目标动作类型调整单视频帧数,有望有效提升系统性能。

3.4 Playbox的试错过程

3.4.1 T-DEED 的固定帧率设置

  首先验证了"能否针对特定单视频实现过拟合"。通常模型若构建正确,应能完美适配少量数据。但结果却以失败告终——即使聚焦单个视频,精度也毫无提升。调查后发现了一个意外盲点:

  问题根源在于TDEED内部固定了视频的帧率(FPS),与Playbox视频的原始帧率存在偏差。在时间序列动作识别中,时间流速(帧率)的不一致性具有致命影响。当我们意识到这一规格问题,并根据Playbox视频格式调整帧率设置后,模型学习进程便顺利推进。"首先在最小单元验证过拟合"这一调试基本原则,最终成为发现根本性规格错误的捷径。

3.4.2 预训练模型与数据扩展的效果

以下记录为提升精度尝试但未见成效的方案:

  • SoccerNet预训练模型的微调:对Soccernet预训练模型进行微调后,针对本次Playbox视频数据未观察到显著精度提升。

  • 数据增强(Data Augmentation)应用:尝试了TDEED支持的所有数据增强方案,但同样对结果影响甚微。


4. 总结与未来展望

感谢您阅读至此!

本次要点

  • 动作识别技术旨在检测"何时"、"何事"发生。
  • SoccerNet是著名的转播影像数据集,已有T-DEED等多项方法被提出。
  • 通过Playbox摄像机拍摄的影像验证动作检测技术性能。

未来展望

  未来有望通过结合影像、音频(欢呼声强度)及文本(实况解说数据)等多模态数据的动作检测技术,实现更高性能的突破。

undefined