新闻中心

国家多媒体软件工程技术研究中心在国际视频分析与检索技术评测TRECVID中再创佳绩

作者:admin 日期:2016-12-18 17:40:23 浏览:

据悉,在2016年11月结束的国际视频分析与检索技术评测TRECVID中,由武汉大学计算机学院院长胡瑞敏教授所领衔的联合团队在实例检索任务(Instance Search,INS)中取得佳绩,在30个官方规定的检索课题中,取得平均检索准确率(MAP)为0.758的最好成绩,标志着该团队已全面迈入国际视频检索领域的第一梯队。

国际视频分析与检索技术评测TRECVID是由美国国家标准技术研究所(National Institute of Standards and Technology,NIST)于2001年开始组织实施的视频检索评测项目,至今已经连续举办16届。历年的TRECVID评测都会向参评团队发布标准测试数据,参评团队用这些标准测试数据测试自己设计的系统,并在规定时间内向组委会提交自己系统的运行结果,然后由美国国家标准技术研究所对提交结果进行评价和比较。历年参加TRECVID评测的包括相关研究领域的高校、研究所以及商业公司等几乎所有重要研究机构,如Carnegie Mellon UniversityUniversity of OxfordAT&T LabsMicrosoft Research Asia。应该说TRECVID代表了视频检索领域最前沿的研究方向,最先进的技术水平。

今年,由国家多媒体软件工程技术研究中心三名研究生(王正、杨洋、兰佳梅)和两名本科生(关硕森,韩晨夏)组成的NERCMS团队,在胡瑞敏教授、陈军教授和梁超老师指导下,与中国科学院自动化研究所王金桥研究员和武汉大千信息技术有限公司,组成联合团队参加TRECVID评测中的实例检索任务(Instance Search,INS)。这是继去年该团队获得佳绩(平均准确率MAP为0.367)后,连续第四次参加该任务。虽然今年评测课题更复杂、更困难,团队仍进一步大幅提升平均准确率达到0.758,获得所有参评团队的最高检索准确率。

本次实例检索任务要求评测团队从海量视频数据(47万多段视频片断)中检索出某一特定人物在某一特定场景出现的视频片段(见图1)。评测团队利用多媒体检索、计算机视觉、机器学习等技术对视频内容进行分析与理解,并找出官方规定的评测课题内容,找到越多越准,检索平均准确率越高,被评测系统就越好越先进。这一任务支持用户提出人物和场景两方面的检索条件,评测系统在海量视频中找出同时满足这两个条件的视频片断。比如,用户想从海量视频中获取“奥巴马在白宫总统办公室”的视频。由于“奥巴马”的衣着不一、姿态变化,找到“奥巴马”出现的视频已是不易,系统还需在“奥巴马”出现的众多类似场景中,把在“白宫总统办公室”的那些选出来。所以,今年的评测任务具有很大的挑战性。

 

图1 TRECVID实例检索任务示例

武汉大学计算机学院院长胡瑞敏教授所领衔的联合团队在面临检索人物大小不一,姿态变化多,背景干扰大等情况,提出了多尺度反卷积回归人脸检测网络和深度嵌入的人脸识别网络,获得高精度人脸识别结果;在面临场景光照变化大、遮挡严重等情况,提出了基于局部视角和全局视角相融合的场景检索方法,有效降低了场景漏检率。在此基础上,团队进一步融合人类先验知识,配合多源跨模态信息,过滤大量无人脸、户外场景和车辆等无关信息,从而大幅减少噪声信息源。评测主办方美国国家标准技术研究所认为上述“系统独特,有趣,聪明,并且极富信息量” (your system is unique, interesting, clever and ultimately informative)。最终,团队所设计的系统在30个官方规定的检索课题中,取得检索平均准确率为0.758的最好成绩,标志着该团队已全面迈入国际视频检索领域的第一梯队。

本次评测的相关技术已经运用在面向监控视频的特定目标检索中,有助于公安人员在海量监控视频中排除不相关目标,关注重点目标,聚焦、观察、分析嫌疑对象,显著提高海量监控视频浏览效率,进而对提高公安部门应急处置能力和社会治安综合防控能力具有重要意义。相关技术成果转化后的产品目前已在在1个省会城市,7个省的12个县级以上单位推广应用,取得了良好的社会效益和经济效益。这些产品多次在实际案例中发挥了重大作用,对维护人民生命财产安全具有重大的意义。