欢迎访问国家多媒体软件工程技术研究中心

科学研究

首页  >  科学研究  >  成果展示

中心团队获计算机视觉顶级会议ICCV2021国际大赛冠军

点击:17803 时间:2021-10-20 08:55:30

在2021年10月落幕的计算机视觉顶级会议ICCV 2021多模态视频理解大赛(MMVRAC)中,由国家多媒体软件工程技术研究中心主任杜博教授和叶茫教授带领的MARS_WHU团队在无人机行人重识别赛道夺得冠军。该赛事吸引了来自法国INRIA、清华大学、澳大利亚墨尔本大学、阿里达摩院等世界著名研究机构的68支参赛队伍,武汉大学团队取得了79.1%的平均检索准确率(MAP)位居世界第一,该成绩大幅领先第二名(74.5%)4.6个百分点。该成果标志着武汉大学团队在无人机目标检索领域达到世界领先水平。

参加本次比赛的MARS_WHU团队成员全部来自武汉大学计算机学院,包括两名2021级研究生陈朔怡、李贺和一名2018级本科生王同鑫,相关工作于2021年暑期完成。团队指导老师是叶茫教授和杜博教授。

ICCV的全称是IEEE International Conference on Computer Vision,即国际计算机视觉大会,被中国计算机学会评为最高级别学术会议,在业内具有极高的评价。本次比赛由举办方向各参赛队伍发布训练和测试数据,本次比赛使用UAV-Human数据集,包含67428个多模态视频序列和119个用于动作识别的对象,22476帧用于姿态估计41290帧和1144个用于行人重识别的行人对象。该数据集是由无人机飞行在三个多月的白天和夜间在多个城市和郊区收集,因此涵盖了多样的主题、背景、照明、天气、遮挡、相机运动和无人机飞行姿态。参评者用比赛提供的标准测试数据测试自己设计的算法,并在规定时间内向组委会提交结果。

无人机行人重识别赛道的任务是给定一个查询目标,在海量无人机拍摄的图像中检索出该目标,这是一项重要且具有挑战性的人类行为理解任务。由于无人机飞行带来的不同视角和分辨率的变化、复杂的背景和遮挡问题,无人机下的行人重识别任务相比于普通的城市监控摄像头更具挑战性。为此,MARS_WHU团队设计了基于卷积神经网络与最新的视觉Transformer网络架构融合的目标检索模型,有效解决了无人机场景中极端视角差异和严重光照变化的问题。MARS_WHU团队提出的无人机智能检索技术具有广泛的应用前景,无人机在空中无遮挡,具有更广的视野,能监测的范围更大、环境适应能力强,能够适用于城市安全防控、大型公共场所管控、疫情轨迹追踪、复杂地形的信息搜集等多种应用场景。该技术对无人机智能化发展具有重大意义。

图片1.png

图 无人机行人重识别流程及应用示例