台湾林嘉文教授、日本藤真一教授和王正博士来我中心交流
2018年11月20日下午,武汉大学国家多媒体软件工程技术研究中心在武汉大学本科生院楼南-613会议室举办了多媒体数据处理研讨会,特邀清华大学(台湾)林嘉文教授、日本国立情报学研究所佐藤真一教授、日本国立情报学研究所研究员王正博士一行人来到武汉大学国家多媒体软件工程技术研究中心进行交流与指导。
按照多媒体数据处理研讨会会议议程,林嘉文教授进行题为“identity-Preserving Face Processing for Better Face Recognition”的报告,首先介绍了在视频监控中人脸检测/识别的重要性,并且指出了视频监控设备获取的内容在现实环境中容易各方面因素的影响从而导致了人脸检测/识别的困难。林嘉文教授所在团队基于SiGANs网络,在损失函数中引入了重构误差和身份标签信息,这样不仅能够确保重构图片和真实图片之间具有的保真度,同时也确保了重构信息的有用性。实验结果表明,在同等条件下时间复杂度和准确率均超过国际先进水平。
佐藤真一教授进行了题为“Social Analysis by Using Large-Scale Broadcast Video Archive”的报告,以生动形象的例子向大家展示了如何通过商业广告等进行社会活动和行为的现象分析,所在团队以TV-RECS 中的400000小时的视频作为实验的样本,通过搜索不同的关键字获取相应的内容。最后,佐藤真一教授就团队的最新的研究成果进行了分享,并对未来的研究方向进行了展望。
王正博士进行了题为“Scale-adaptive Low-resolution Person RE-identification”的报告,指出了先前关于行人重识别的研究往往不会考虑低分辨率和尺度匹配错误这两个问题,但是在现实生活中这样的问题大量地存在,为了解决这个问题,王正博士提出了两个解决方法,分别是学习鉴别表面得到尺度距离函数(SDF)和级联的超分辨GAN网络。通过在两个模拟数据集和一个公开数据集上测试,两中方法均取得了不错的效果。
国家多媒体软件工程技术研究中心的胡瑞敏教授进行了题为“Research on Multi-camera Network based Group Person Re-identification and Multi-space Collaborative Analysis for Social Security”的报告,胡教授主持的项目是基于街区视频和手机轨迹数据开展行人重识别多元分析的技术研究,提出了将传统的2D空间对象相似性度量方法拓展到3D空间最佳匹配角度计算和可信度量的模型,将对象间相似性度量排序拓展为群体/长程集合约束排序研究简单社会活动条件下个体时间运动和粗粒度社会活动规律,探究个体时间和社会行为模式对身份辨识的计算方法,该技术将有效提升街区群体长程活动行人重识别的准确率。
国家多媒体软件工程技术研究中心的王晓晨老师进行了题为“Research on the theory and key technology of 3D audio”的报告,指出了当今3D音频面临的挑战,王老师所在课题组聚焦“精简方式与声场重建的失真机理、距离线索重构的误差产生机理、3D音频空间参数感知内在机理”三大科学问题。研究扬声器组智能精简技术、扬声器组距离恢复技术、三维空间参数编码技术,取得了失真汇聚度定理、能量双守恒模型和ICLD JND快速计算方法等理论和技术成果。通过上述工作初步推动了3D音频真正走入家庭,助力全 3D 的视听产业发展。
此次报告中,大家收益匪浅,双方专家老师和学生就相关问题进行了深入的探讨和交流,对于学生提出的问题作出了详细的解答,是大家对在今后的科研工作中如何处理问题的思路有了深刻的理解,对学术研究起到了积极的促进作用。