电话咨询

电话咨询:010-62607600

微信咨询

微信扫码

赛道 | CVPR2021-MMAct挑战赛跨模态动作识别双冠方案解读

公司资讯 发布时间:2021-09-08 15:07:14 作者:深延科技

日前,计算机视觉和模式识别领域的三大顶级会议之一CVPR正在进行中,深兰DeepBlueAI团队在动作识别国际挑战赛 (ActivityNet) 研讨会上,参加了 MMAct 挑战赛中仅设的两个赛道——“跨模态裁剪动作识别”和“跨模态未裁剪动作时序定位”,并均以大比分领先取得第一。

image.png

竞赛要求参赛者提出跨模态视频动作识别/定位方法,以弥补使用 MMAct[1] 数据集的纯视觉方法的缺点。此任务的目标是利用基于传感器的,例如穿戴式传感器数据作为特权信息,以及基于视觉的模态,其方式可以克服训练(传感器 + 视频)和测试(仅视频)阶段之间模态差异所带来的限制。用于此竞赛的多模态数据包括:加速度、方向、陀螺仪、RGB 视频和人体关键点。

挑战赛促进了关于如何通过使用跨模态方法解决视觉挑战的另一种观点,希望扩大对视频动作理解的研究,以进一步利用日常使用的智能设备(例如智能手机)中的传感器。

值得一提的是,深兰科技作为连续三次问鼎CVPR的“常客”,凭借其高超的技术水平,更是在其他众多国际顶级大赛中一骑绝尘,至今在ICCV,ECCV, NeurIPS,KDD,ACL,NAACL等大赛中包揽多项冠军。

Cross-Modal Trimmed Action Recognition

(跨模态裁剪动作识别)

在此任务中,参与者使用来自MMAct 的修剪视频以及配对的传感器数据,在数据中包含交叉视角和交叉场景两种类型的数据,共35个动作类别。任务允许参与者使用修剪过的传感器数据和修剪过的视频进行训练,但不能同时使用交叉视角和交叉场景的数据,且仅对修剪过的视频进行测试以进行动作识别,并采用mAP作为评价指标。

赛题难点

1、不同视频等多模态数据时序长度变化大,从几秒到几分钟不等。

2、测试阶段只提供了视频数据。

应用场景

视频监控,异常行为识别。

解决方案

考虑到视频长度较长,为了有效的捕获视频中的动作信息,我们优先采用了等间隔采样的采样方式对每个视频进行采样。然后采用随机尺度裁剪,水平翻转等数据增强方式进行增强。

image.png

在算法选型上,我们优先采用了TSM[2]进行实验,它具有高效率和高性能。具体来说,它可以达到 3D CNN 的性能,但保持 2D CNN 的复杂性。TSM 沿时间维度移动部分通道;从而促进相邻帧之间的信息交换。它可以插入到 2D CNN 中以实现零计算和零参数的时间建模。

以作为对比,我们同时采用了滑动窗口的形式进行帧数据采样,并采用ir-CSN[3]进行实验。CSN探索了通道之间交互的重要性,并达到了节省计算参数和通道之间交互的平衡,网络具有结构精简、计算量小、速度快、准确率好的优点,并且还有一定的正则化能力。

最后我们实验在了为每个视频采样不同的帧数,是否添加Non-Local模块,以及MixUp与ColorJitter数据增强之后。我们采用TSM 以ResNet50作为Backbone, 并以等间隔采样的方式采样32帧的方法取得了最好的单模成绩。在融合ir-CSN结果后,取得了最好的线上成绩。

image.png

Cross-Modal Untrimmed Action Temporal Localization

(跨模态未裁剪动作时序定位)

在这项任务中,参与者使用来自MMAct 的未修剪视频以及配对的传感器数据,在数据中包含交叉视角和交叉场景两种类型的数据,共35个动作类别。参与者允许使用未修剪的配对传感器数据和视频进行训练,然后在仅包含未修剪的视频数据的测试集上进行时间动作定位,输出未修剪视频中识别的动作类别及其开始和结束时间,并采用AP作为评价指标。

赛题难点

1、视频时长较长,从几分钟到十几分钟不等。

2、测试阶段只提供了视频数据。

应用场景

视频监控,异常行为识别,定位。

解决方案

考虑到在测试集中只提供了视频数据,因此我们的实现方案主要在视频数据上进行实验。在时序动作定位相关的工作中主流的方法如BSN[5], BMN[6]等需要经过:视频抽帧->提取光流->行为识别算法进行特征提取->时序动作定位算法进行动作定位->行为识别算法进行动作识别等多个环节,整个方案实现流程十分繁杂。

image.png

在我们的实现方案中为了简化方案流程,采用AFSD[7]作为算法实现。这是一个anchor-free的时序定位框架,并且是一个end-to-end使用视频帧作为输入而不是特征作为输入的算法。

为了获得模型的输入,我们对每个视频以动态帧率采样2304帧,并进行光流计算,这样可以保证10分钟以上的视频有大约3帧的采样帧率,不至于丢失过多的视频信息。

最后在分别采用RGB数据和光流数据进行训练,并融合两种类型的预测结果后,取得了我们的最好成绩。

image.png

以上研究成果并非空穴来潮,对于深延科技AI团队来说,这些早已习以为常。深延科技智能监控系统依托于成熟的计算机视觉与视频分析技术,自动检测异常行为的发生,高效满足企业多功能、多场景的业务需求。

人工智能为安防行业的转型提供了重要的技术支撑。其中的行为识别技术能很好弥补纯人为安防的缺陷,使安防从被动防御变为主动预警。

行为识别指的是让机器从一个未知视频或图像序列中自动分析其中正在进行的行为。简单来说就是智能识别出哪些人、在什么时刻、什么地方、干什么事情。深延科技充分利用自身独特的技术路径,通过行为识别的技术对场景实时跟踪、识别分析,并以最快时间达到对突发性事件的警报,目前已应用于运动、商场、道路等公共场所,主动识别行为,最大限度地曝光异常行为。

image.png

image.png

立即使用深延AI平台