不要错过 "什么时候发生了什么"；行动发现的前沿和 Playbox 获得的实用技巧。

你好！我是中谷千洋，目前在Playbox担任实习生。平日主要从事博士课程中关于人类行为识别的研究（CV IU2026·CVPR 202 4 ·IC CV 20 2 3）。

本次将聚焦近年来在运动分析领域备受瞩目的"动作识别（Action Spotting）"技术，从技术背景到实用化要点进行精炼讲解。

什么是动作检测？
SoccerNet在CSports中的应用
Playbox平台中的动作识别应用
总结与未来展望

1. 什么是动作定位？

与常规视频分类任务（识别"整个视频中发生了什么"）不同，动作检测（Action Spotting）旨在精确定位"长视频中何时发生何种动作"。在体育影像中，射门等动作（事件）往往只是瞬间发生。该技术的核心目标，正是沿时间轴高精度检测这些"瞬间事件"并标注具体时间戳。

SoccerNet 视频动作检测示例

动作检测技术可广泛应用于赛事集锦制作、战术分析、球员评估（用于球探工作）及球迷互动等领域。

2. CVSports中的动作检测

谈及体育赛事分析，SoccerNet数据集与基准测试是不可回避的核心议题。在计算机视觉领域顶级国际会议CVPR的"CVSports"研讨会上，基于该数据集的各类竞赛持续开展。值得关注的是，今年6月举办的CVSports（CVPR2026）将特邀Playbox首席执行官Atom Scott先生进行主题演讲，敬请期待！

2.1 SoccerNet数据集

该数据集由欧洲主要联赛超过500场比赛的影像构成。近年来，除动作识别外，状态感知（GSR）技术——即识别球员角色（场上球员、守门员、裁判等）及位置信息——也已成为战术分析与比赛评估的关键技术。Playbox公司亦参与了CVSports（CVPR2025）的GSR竞赛。

2.2 动作识别注释

SoccerNet为动作识别定义了17类动作检测目标。每段视频均标注了这17类动作的发生时间戳。若按动作类型及检测所需特征分类，可归纳如下：

[射门类动作]

进球（Goal）・射正（Shots on target）・射偏（Shots off target）
关键特征："球体轨迹"与"球网位移"

[踢球类动作]

间接任意球（Indirect free-kick）・直接任意球（Direct free-kick）・开球（Kick-off）・角球（Corner）・解围（Clearance）・掷界外球（Throw-in）
重要特征："球的位置"与"球员阵型"

[裁判判罚类及其他]

越位（Offside）・点球（Penalty）・犯规（Foul）・黄牌（Yellow card）・红牌（Red card）・黄牌→红牌（Yellow->red card）・球员换人（Substitution）・球出界（Ball out of play）
重要特征："裁判手势"、"特定球员的详细动作信息"

2.3 评估指标

在动作识别中，通过mAP（平均平均精度）评估对目标动作"何时（时间戳）"发生的预测准确度。若预测时间戳与真实值（Ground Truth）偏差在限定时间内（δ秒以内），则判定为正确。各分类的AP（平均精度）由精确率与召回率计算得出。

动作检测中的结果判定规则

2.4 基线模型

在动作识别领域表现卓越的是 T-DEED：体育视频精准事件检测的时间可辨性增强编码解码器。该方法发表于 CVsports '24，通过从由 L 帧构成的视频中提取时间序列特征，同时检测每帧的"是否发生动作"及"发生何种动作"。如下图所示，"无动作发生"的帧数量庞大，这成为训练过程中的难点之一。

T-DEED 架构示意图（https://arturxe2.github.io/projects/T-DEED/）

实际采用T-DEED对SoccerNet的动作检测任务进行训练后，mAP值稳定在60-80区间，表明系统以较高精度成功实现了动作检测。

SoccerNet数据集mAP结果（https://arturxe2.github.io/projects/T-DEED/）

但需注意，SoccerNet视频源自转播素材，各视频拍摄环境高度相似，因此即使数据量较少也能较易完成训练。下文将介绍实际应用案例——针对Playbox摄像机在多样化环境下的训练实例，其拍摄场景与SoccerNet存在显著差异。

3. Playbox摄像机的动作检测

Playbox Camera 面向多样化环境拍摄设计，其视频间的拍摄环境差异远大于 SoccerNet。本次针对此类复杂拍摄环境下的动作检测，开展了所需数据量等要素的调研。

3.1 数据集概述

现将具体介绍本次使用的数据集内容。

3.1.1 Playbox Camera影像数据

Playbox Camera拍摄的影像完整保留了实际比赛的临场感，既能捕捉整个球场全景，也能聚焦特定比赛瞬间。以下展示实际视频片段。

Playbox Camera拍摄视频示例

3.1.2 动作分类

本次研究聚焦于足球比赛中的以下6类动作：

类名	内容
ck	角球
开球	开球
进球	进球场景
射门	シュート
任意球	自由球
penalty kick	点球

3.1.3 标注方法

我们实施了人工标注。通过逐帧查看每个视频，记录特定动作（例如：踢球瞬间、越过球门线瞬间）发生的时间戳。

3.1.4 数据规模

用于分析的数据总量如下：

总视频数量：345部
标注单位：每段视频中上述6类事件的发生点

通过这些数据集，我们为从Playbox Camera影像中自动提取比赛精彩片段及生成统计数据奠定了基础。

3.2 结果

基于345段视频进行训练后，结果显示系统"对具有特定模式的动作表现优异，但对突发性动作仍有改进空间"。尤其在开球信号和定位球场景中，检测精度相对较高。

3.2.1 mAP评估结果

首先确认各类别的mAP值。

类别	mAP
整体平均	0.43
开球	0.71
射门	0.59
角球	0.51
任意球	0.39
进球	0.38
点球 (Penalty Kick)	0.00

3.2.2 从结果中可见的考察

定位球战术展现出高精度

kick off (0.71) 及 ck (0.51)的mAP值较高。这可能是因为"球员从静止状态开始"的明确模式使得学习过程较为容易。
"进球"判定的难度

goal (0.38)的较低表现，源于其涉及"射门动作"与"进球结果"两个事件的复杂交互，导致学习难度显著提升。

3.2.3 推理结果可视化（视频）

请通过视频查看实际射门（shot）与角球（ck）的检测示例。

Playbox摄像机拍摄视频中的射门检测结果

Playbox摄像机拍摄视频中的角球检测结果

3.3 详细解析

3.3.1 数据量（标注数量）与mAP

"需要多少标注才能提升精度？"是最常见的问题之一。结论是：随着视频数量（标注数量）增加，mAP会持续提升，但达到一定阈值后将进入饱和状态。下图展示了实际视频数量与shot类别的mAP关系，可见精度提升效率随视频数量增加而逐渐放缓。

训练视频数量与mAP（shot）的关系

3.3.2 帧数（FPS）与mAP

在动作检测中，视频的帧数构成对理解关键场景上下文至关重要。例如，进球检测不仅需要捕捉球体震动球网的视觉特征，还需辅助利用得分方欢庆或失分方懊悔等场景上下文信息。

单视频帧数与mAP(shot)的关系

虽然看似得出"只需增加单视频帧数即可"的结论，但实际情况并非如此。如上图所示，当单视频帧数持续增加时，mAP会在某个阶段达到饱和，之后反而可能下降。T-DEED论文中也记载了类似结果（表6(d)）。其原因可能有多种，但关键在于：帧数增加虽能获取更多信息，却也导致学习难度提升。

由于单视频帧数增加将导致推理所需计算量上升，因此根据所需性能、推理速度及目标动作类型调整单视频帧数，有望有效提升系统性能。

3.4 Playbox的试错过程

3.4.1 T-DEED 的固定帧率设置

首先验证了"能否针对特定单视频实现过拟合"。通常模型若构建正确，应能完美适配少量数据。但结果却以失败告终——即使聚焦单个视频，精度也毫无提升。调查后发现了一个意外盲点：

问题根源在于TDEED内部固定了视频的帧率（FPS），与Playbox视频的原始帧率存在偏差。在时间序列动作识别中，时间流速（帧率）的不一致性具有致命影响。当我们意识到这一规格问题，并根据Playbox视频格式调整帧率设置后，模型学习进程便顺利推进。"首先在最小单元验证过拟合"这一调试基本原则，最终成为发现根本性规格错误的捷径。

3.4.2 预训练模型与数据扩展的效果

以下记录为提升精度尝试但未见成效的方案：

SoccerNet预训练模型的微调：对Soccernet预训练模型进行微调后，针对本次Playbox视频数据未观察到显著精度提升。
数据增强（Data Augmentation）应用：尝试了TDEED支持的所有数据增强方案，但同样对结果影响甚微。

4. 总结与未来展望

感谢您阅读至此！

本次要点

动作识别技术旨在检测"何时"、"何事"发生。
SoccerNet是著名的转播影像数据集，已有T-DEED等多项方法被提出。
通过Playbox摄像机拍摄的影像验证动作检测技术性能。

未来展望

未来有望通过结合影像、音频（欢呼声强度）及文本（实况解说数据）等多模态数据的动作检测技术，实现更高性能的突破。