电话咨询

电话咨询:010-62607600

微信咨询

微信扫码

ICCV2021 | DeepBlueAI 团队征战四赛道,一举拿下三项冠军!

公司资讯 发布时间:2021-10-20 12:26:08 作者:深延科技

10月11日至10月17日,2021国际计算机视觉大会International Conference on Computer Vision (ICCV)于线上拉开序幕。此次会议,深兰科技DeepBlueAI团队共参加2项比赛4个赛道,分别在VisDrone Object Detection,VisDroneMot,Large-AI-Food三个赛道获得冠军。VisDrone 已成为无人机领域标杆数据集,且业界多篇论文在此数据集基础上研究发表。

以上两个比赛吸引来自全球多家知名团队参与角逐,其中不乏多所高校与顶级技术团队,包括清华大学、中科院计算所、北京邮电大学、巴塞罗那大学,腾讯、谷歌、阿里巴巴、OPPO等上百支知名团队参赛。

image.png

值得一提的是,DeepBlueAI 团队作为 ICCV 的“常客”,凭借其高超的技术水平,更是在其他众多国际顶级大赛中战果丰硕,至今已在CVPR,ECCV,NeurIPS,KDD,ACL,NAACL等大赛中获得多项冠军。

一、无人机挑战赛包揽双赛道冠军

据介绍,在无人机比赛中,DeepBlueAI 团队包揽了”图像中的目标检测”和”多目标跟踪挑战”两个赛道的冠军,“图像中的目标检测”的任务旨在从无人机拍摄的单个图像中检测预定义类别的对象(例如,汽车和行人);而”多目标跟踪挑战”的任务旨在恢复每个视频帧中对象的轨迹。

image.png

VisDrone Object Detection 赛道 DeepBlueAI 团队排名

image.png
image.png

VisDroneMot 赛道 DeepBlueAI 团队排名

VisDrone数据集由天津大学机器学习与数据挖掘实验室 AISKYEYE 队伍负责收集,全部基准数据集由无人机捕获,包括 288 个视频片段,总共包括 261908 帧和 10209 个静态图像。

这些帧由 260 多万个常用目标(如行人、汽车、自行车和三轮车)的手动标注框组成。为了让参赛队伍能够更有效地利用数据,数据集还提供了场景可见性、对象类别和遮挡等重要属性。

虽然此比赛已举办多届,难点仍然还有以下几点:

  1. 大量的检测物体
  2. 部分目标过小
  3. 不同的数据分布
  4. 目标遮挡严重

image.png

数据分布

image.png

遮挡数据量统计

针对数据集难点,DeepBlueAI 团队设计了一套强有力的数据增强方式和pipeline。对于数据处理,将每一类图片数量小于4000张的,通过随机加噪声、改变亮度、cutout扩充为4000张,这样可以缓解类别不平衡的问题。

同时采用中心裁剪方式以缓解目标尺度不一致的问题,以及叠加马赛克增强的方式来丰富检测数据集。

image.png

每一类数据在训练集中的数量

image.png

中心裁剪

image.png

马赛克数据增强

二、拿下首届 LargeFineFoodAI 比赛中的 Large-AI-Food 赛道冠军

在此期间,与大会同期举行的首届LargeFineFoodAI技术研讨会,由美团视觉智能中心联合中科院计算所、北京智源、巴塞罗那大学在Kaggle竞赛平台上共同主办,会议核心聚焦计算机视觉技术在大规模细粒度食品分析领域的应用。

首届 LargeFineFoodAI 比赛分为 Recognition 和 Retrieval 两个赛道,根据研讨会评选结果得知,DeepBlueAI团队在Large-ScaleFine-Grained Food Retrieval 赛道中取得了冠军的成绩。

image.png
Large-ScaleFine-Grained Food Retrieval

赛道DeepBlueAI 团队排名

据DeepBlueAI团队透露,与通用图像识别及检索相比,食品细粒度识别及检索技术难度更大。许多不同类型的食品外观看起来可能非常相近,而同一种类型的食品也可能由于做法不同看起来差异较大,此外光线、拍摄角度、不同的拍摄背景都可能对算法的精度产生影响,即便对于专业人员也较难快速准确的进行辨别。另一方面,相关技术具有广泛的应用场景和实际的应用价值,例如降低商家端食品图片的审核成本,提升C端食品图片和视频的分发效率等。

美团作为国内领先的生活服务平台,准确把握住消费升级趋势给餐饮行业的经营、消费方式带来的革命性变化,率先提出借助计算机视觉算法对食品图像进行细粒度分析,来快速响应和满足商户和用户大量多样的在线食品图像审核、管理、浏览、评价等需求。

image.png

参赛人员表示,本次挑战赛所用数据集来自美团自建数据集"Food2K",该数据集每一张美食图片均由不同个人,采用不同设备,在不同环境场景下拍摄获取,是难得的可以公正评价算法鲁棒性和效果的图片数据,挑战也非常大。并且所有图像均由美团公司的食品专家进行评估,确保了数据的高质量。相比其他主流食品图像识别数据集,"Food2K"数据集完全人工标注,数据集噪声比例控制在 1% 以内;数据分布与真实场景相符,不平衡现象显著;而且类别粒度更细。以披萨为例,主流数据集(例如Food-101)仅具有披萨类,而"Food2K"进一步将其划分为多种多样的披萨,如鲜虾披萨、榴莲披萨等。

图像检问题现有研究比较多,但对于大规模、细粒度的图像检索比较新。图像检索最主要的就是特征提取网络,现有的的特征提取网络主要基于卷积神经网络如ResNet、ResNest和EfficientNet等,无法像transformer一样提取到更加丰富、区分度更高的特征。提取完特征后,在度量两张图片相似度的阶段单纯使用余弦距离来计算精度很低,我们使用ReRank的方法将欧式距离和雅可比距离加权来度量query和gallery之间的相似度。最终取得第一的成绩。

立即使用深延AI平台