国家多媒体工程中心团队在国际视频检索技术评测上再创佳绩
近日,在2023年国际视频检索技术评测(TREC Video Retrieval Evaluation, TRECVID)年会上,武汉大学国家多媒体软件工程技术研究中心团队再创佳绩。WHU-NERCMS团队在跨模态视频检索(Ad-hoc Video Search, AVS)与深度视频理解(Deep Video Understanding, DVU)两项任务上同时取得全赛道第一的最好成绩。
TRECVID是由美国国家标准化与技术研究所(National Institute of Standards and Technology,NIST)于2001年开始组织实施的国际性视频分析与检索评测项目,至今已经连续举办23届,TRECVID评测代表了视频检索领域最前沿的研究方向和最先进的技术水平。TRECVID评测由NIST向参评团队发布标准测试数据和任务选题,参评团队用这些标准测试数据和任务选题测试自己设计的视频分析与检索系统,并在规定时间内向组委会提交自己系统的运行结果,最后由NIST对提交结果进行评价和比较。得益于TREC评测所积累的专业性和权威性,历年的TRECVID评测都吸引到大量全球顶尖高校、研究所以及商业公司参与其中。
图1.NIST TRECVID 跨模态视频检索(AVS)任务
今年,由研究生郭佳昊、张红与本科生何姜杉、李睿哲、李明熙组成的武汉大学国家多媒体工程技术研究中心WHU-NERCMS团队,在梁超、杜博和王中元三位老师共同指导下,同时报名参加了TRECVID 2023评测中的AVS与DVU任务。其中,AVS任务是团队第一次参加。该任务要求参赛团队从包含140多万视频片段的数据库中检索出符合给定文本描述的视频片段。如图1(a)所示,给出的文字查询“Two adults are seated in a flying paraglider in the air”是由人物、行为、物体、地点等复杂语义构成。相比于精确查询,该任务的文字描述更加抽象,并不指向具体数据库的某个片段。每个查询最多只允许返回1000个检索结果,其中符合文本描述的视频片段越多、位置越靠前则得分越高。任务的难点在于如何合适地处理跨模态信息:让系统在理解查询复杂语义的同时,“记住”大规模数据库中的图片信息,返回尽可能多的相关结果。由本科生何姜杉牵头的AVS任务小队首先使用跨模态的视觉语言模型来产生基础的排序检索结果,然后利用团队自研的量子排序融合方法对基础排序结果进行交互反馈,融合产生最终的检索排序结果。针对官方规定的20个查询,我们系统取得了自动检索赛道0.292和交互赛道0.299的检索准确率【见图1(b))】,在与香港城市大学、中国人民大学、早稻田大学、日本国立情报研究所等高校和科研机构队伍的竞争中取得第一名的好成绩。
图2. NIST TRECVID 深度视频理解(DVU)任务
DVU任务是WHU-NERCMS团队继2022年第一次参赛获得第三名后再次参加,该任务要求参赛者设计视频分析与理解算法从场景和电影两个长短不同的层次去理解一部影片的故事内容,然后完成视频问答(Video Question and Answer, VQA)。如图2(a)所示:“Why does Rintaro leave Cory and Atsuko at the Devil's Punch Bowl?”,这个问题的难点在于首先要精准定位到与问题相关的视频片段,而在这部超过90分钟的电影中,三人同时出现的场景是非常多的,要搜索出所有视频并找到与问题相关(at theDevil's Punch Bowl)的片段是不容易的,而在搜索到的基础上还需要对问题(Why)以及视频片段内容(做出拍照手势)进行理解与匹配,最终才能得到答案(to take a picture)。由本科生李睿哲和研究生郭佳昊共同领衔的DVU任务小队提出了一种分阶段DVU方法,通过对电影人物的精确跟踪以及对知识图谱的灵活搜索得到基础问题答案,在此基础上引入大语言模型帮助理解与回答需要强推理能力的复杂问题。最终在两个层级共计四个组别的赛道上分别取得0.409,0.512,0.596和0.430的准确率得分,在四个小组均位列第一。不仅如此,团队利用上述系统还首次参加了由TRECVID与ACM Multimedia 2023联名组织的DVU挑战赛,并在与南京大学,北京邮电大学等老牌强队的竞争中,在四个组别赛道中取得了两组第一与两组第二的最好成绩【图2(b)】。
据悉,工程中心培养的学生迄今已在各类国际、全国性大赛上获奖200余次,此次国际视频检索技术评测的突出表现可谓再下一城。国家多媒体软件工程技术研究中心成立于1996年,是多媒体软件领域第一个国家级研究机构。工程中心依托武汉大学建设,致力于成为多媒体领域共性技术基础研究、工程化研发与成果推广基地、人才培养基地。工程中心培养的毕业生能够成为行业的领军人物和社会的“高精尖”人才,涌现出武汉大学第一位华为天才少年江奎、小米未来星李罡和胡晨昊,多位同学获得雷军计算机奖学金、于刚-宋晓奖学金和谷歌奖学金,历年毕业生就业率保持100%,深受社会各界特别是用人单位的好评。