欢迎访问国家多媒体软件工程技术研究中心

科学研究

首页  >  科学研究  >  成果展示

中心张乐飞教授团队在ICCV 2021“多目标跟踪竞赛”的“深度+视频”赛道夺得第一名

点击:18255 时间:2021-12-20 16:27:03

      在2021年计算机视觉顶级会议ICCV 2021中,由来自武汉大学、北京大学、京东探索研究院的研究人员共同组建的团队在“多目标跟踪竞赛”(Benchmarking Multi-Target Tracking Competitions)的“深度+视频”赛道中取得了第一名的成绩。团队成员包括武汉大学计算机学院、国家多媒体软件工程技术研究中心的张乐飞教授以及2020级硕士生原昊博。参加本次竞赛的团队包括来自华盛顿大学、约翰霍普金斯大学、Google等知名高校和公司的研究人员。该成果标志着团队在三维场景理解领域中达到了世界领先水平。

       ICCV的全称是IEEE International Conference on Computer Vision,即国际计算机视觉大会,被中国计算机学会评为最高级别学术会议,在业内具有极高的评价。而“多目标跟踪竞赛”则是从2015年起逐年举办,旨在探索现实世界中物体跟踪这一任务的边界,之前的竞赛中已经涌现出许多优秀的算法。今年,由Google资助,与ICCV-2021大会联合举办的第六届多目标跟踪竞赛加入了“深度+视频”这一更具挑战性的任务。

      据了解,“深度+视频赛道”需要使用视频序列实现深度估计和时间一致全景分割的预测,这一任务被称之为“深度可知视频全景分割”(Depth-aware Video Panoptic Segmentation)。由于任务不仅仅需要具备比较好的全景分割的预测,同时还需要准确的深度估计和视频跟踪结果,此任务十分具有挑战性。

     基于此,受到古典音乐中复调的启发,团队创造性地提出了一种基于查询学习的统一的、深度可知视频全景分割方法。该方法将查询学习应用到深度估计中,并将深度估计和视频全景分割的两个任务进行统一。相较于之前的非统一、任务间独立的方法,该方法可以使深度估计和全景分割两个子任务之间相互促进来获得更好的效果,该方法在所有参赛队伍中荣获第一名的成绩。

BMTT竞赛链接:

https://motchallenge.net/workshops/bmtt2021/

1.png

视频caption

视频左侧和中间是从视频序列中选取的两个查询对应的分割和深度估计结果。 所有基于查询得到的结果经过合并得到分割和深度的密集输出。