欢迎访问国家多媒体软件工程技术研究中心

科学研究

首页  >  科学研究  >  成果展示

中心团队十一篇论文被顶级会议CVPR 2022和ICLR 2022录用

点击:17237 时间:2022-03-21 16:53:08

工程中心20级博士生汝理想和丁健、21级博士生刘子翼和胡梦顺、19级硕士生韩佳明、20级硕士生姜祥威、21级硕士生黄文柯和方修文、已毕业硕士生马宪政为第一作者的10篇论文被人工智能顶级会议CVPR 2022录用。以19级博士生王子明为第一作者的1篇论文被深度学习领域顶会ICLR 2022录用。

       CVPR全称为「IEEE/CVF Conference on Computer Vision and Pattern Recognition」(国际计算机视觉与模式识别会议)。该会议是由IEEE和CVF联合举办的计算机视觉和模式识别领域的顶级会议,会议将于6月19日至6月24日在美国路易斯安那州新奥尔良市举行。CVPR 在最新的谷歌学术期刊和会议影响力排名中位列计算机学科首位。

      ICLR,全称为「International Conference on Learning Representations」(国际学习表征会议),被认为「深度学习的顶级会议」,会议将于4月25日至4月29日线上举行。ICLR 在最新的谷歌学术期刊和会议影响力排名中位列计算机学科前列。


论文介绍:

1、论文题目:Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with Transformers

作者: Lixiang Ru,Yibing Zhan,Baosheng Yu,Bo Du

指导教师:杜博教授

基于卷积神经网络的弱监督语义分割方法无法准确探索全局信息,因此通常会导致对象区域不完整。在本文中,为了解决上述问题,我们引入视觉Transformers,它自然地整合了全局信息,为端到端的 WSSS 生成更完整的初始伪标签。同时,受 Transformers 中的自注意力和语义相关性之间的内在一致性的启发,我们提出了一个 Affinity from Attention (AFA) 模块来从 Transformers 中的多头自注意力 (MHSA) 中学习语义相关性。然后利用学习到的亲和力来细化初始伪标签以进行分割。此外,为了有效地导出用于监督 AFA 的可靠亲和标签并确保伪标签的局部一致性,我们设计了一个像素自适应细化模块,该模块结合了low-level图像外观信息来细化伪标签。提出的方法在 PASCAL VOC 2012 和 MS COCO 2014 数据集上显著优于最近的端到端方法。

图片1.png

图1:论文提出的端到端弱监督语义分割框架

图片2.png

图2:弱监督语义分割结果对比


2、论文题目:Multi-marginal Contrastive Learning for Multi-label Subcellular Protein Localization

作者: Ziyi Liu, Zengmao Wang, Bo Du

指导教师:杜博教授, 王增茂副教授

蛋白质亚细胞定位(PSL)是研究人体细胞功能和癌症发病机制的一项重要任务。免疫组织化学 (IHC) 图像的巨大尺寸、不同组织图像中无组织的位置分布以及有限的训练图像始终是亚细胞定位学习具有深度学习的强泛化模型的挑战。为了解决上述挑战,我们提出了一种具有多边缘对比学习的深度蛋白质亚细胞定位方法,以感知不同组织图像中的相同亚细胞定位和同一组织图像中的不同亚细胞定位。在所提出的方法中,我们通过将来自下采样图像的全局特征和来自所选切块的局部特征,通过激活图融合来学习 IHC 图像的表示,以解决 IHC 图像的过大问题。然后新颖地提出了一种多边缘注意机制来对比生成具有不同边缘的三元组,并有效地改善针对分类任务的判别特征。最后,使用不同的切块获得每个 IHC 图像的集成预测。基准数据集上的结果表明,所提出的方法对亚细胞定位任务实现了显着改进。

图片3.png

图 1 算法的框架图

图片4.png

图 2算法的定量结果


3、论文题目:Learn from Others and Be Yourself in Heterogeneous Federated Learning

作者 Wenke Huang, Mang Ye, Bo Du

指导教师:叶茫教授, 杜博教授

联邦学习已经成为一种重要的分布式学习模式,它通常涉及与他人的合作更新和对私有数据的本地更新。然而,异构性问题和灾难性遗忘带来了重大的挑战。首先,由于非独立同分布的数据和个性化的模型结构,模型在其他领域的性能降低,以及与参与者模型通信存在障碍。第二,在局部更新中,模型对私有数据进行单独优化,这容易过度拟合当前数据分布,忘记以前获得的知识,导致灾难性遗忘。在这项工作中,我们提出了联合互相关和持续学习。对于异构性问题,我们方法利用未标记的公共数据进行通信,并构造互相关矩阵来学习域移位下的可概化表示。同时,对于灾难性遗忘,在局部更新中我们利用跨域和本域信息进行知识蒸馏,有效地提供域间和域内知识而不泄露参与者的隐私。在各种图像分类任务上的实验结果证明我们的方法的有效性和模块的效率。

图片5.png

图1  算法模型的框架图

图片6.png

图2  算法的定量结果


4、论文题目:Robust Federated Learning with Noisy and Heterogeneous Clients

作者 XiuWen Fang, Mang Ye

指导教师:叶茫教授

模型异构联邦学习是一项具有挑战性的任务,每个客户端都独立设计本地模型。由于注释难度和参与者搭便车问题,本地客户端通常包含不可避免且不同程度的标签噪声。在本工作中,我们创新性地研究了在噪声异构客户端下的鲁棒联邦学习问题,它包含三个方面。第一,如何在不依赖于全局共识或共享模型的情况下使异构客户端执行联邦学习;第二,如何减少本地更新阶段客户端内部标签噪声对本地模型收敛的负面影响;第三,如何避免合作学习阶段来自其他噪声客户端的噪声反馈。我们针对性地提出了一个解决方案,它利用公共数据直接对齐模型反馈以实现异构模型间的通信,不需要额外的共享全局模型进行协作;应用鲁棒的噪声容忍损失函数来减少内部标签噪声的负面影响。同时,我们设计了一种新颖的客户信心重新加权方案,该方案在协作学习阶段自适应地为每个客户分配相应的权重,以此降低来自其他参与者的噪声反馈。

图片7.png

图1 算法模型的框架图

图片8.png

图2 与SOTA方法比较的实验结果


5、论文题目:Decoupling Zero-Shot Semantic Segmentation

论文作者: Jian Ding, Nan Xue, Gui-Song Xia, Dengxin Dai

指导教师:夏桂松教授、薛楠副教授

工作简介:零样本图像语义分割旨在突破现有全监督图像分割方法对有标签数据的依赖,实现跨域的视觉高层语义信息精确表达。受人类视觉认知模式的启发,论文提出了一种新的解耦计算范式,将图像语义分割问题解耦为区域分割和区域分类两个子问题。基于此,文章提出了零样本图像分割的新方法ZegFormer:先从图像中提取无类别信息的分割区域,然后将大规模预训练模型CLIP中的词向量作为语义监督信息,与分割区域的嵌入向量进行对比学习,得到最终的语义分割结果。在PASCAL VOC和COCO数据集上的实验结果表明,ZegFormer能大幅提升零样本图像语义分割的精度。同时,论文研究也进一步展示了大规模自监督预训练模型在零样本图像语义分割上的潜力。

图片9.png 

1:论文提出的解耦零样本语义分割范式

图片10.png 

2:零样本语义分割结果对比 


6、论文题目:Expanding Low-Density Latent Regions for Open-Set Object Detection

论文作者: Jiaming Han, Yuqiang Ren, Jian Ding, Xingjia Pan, Ke Yan, Gui-Song Xia

指导教师:夏桂松教授

工作简介:近几年,目标检测在闭集设置下取得了令人瞩目的进展。然而,开放集对象检测(Open-Set Object Detection,OSOD)仍极具挑战性,属于未知类别的目标经常会被错分到已知类中。在这项工作中,从未知类目标通常分布在低密度隐层特征空间的共识出发,我们提出通过在隐层特征空间中分离高/低密度区域来识别未知类目标。同时,考虑到传统的基于阈值方法难以表示所有的未知类目标,我们提出了基于低密度隐层区域扩张的开放集目标检测:OpenDet。为此我们设计了两个学习器,对比特征学习器 (Contrastive Feature Learner,CFL) 和未知概率学习器 (Unknown Probability Learner,UPL)。CFL进行实例级对比学习,使已知类的特征更加紧凑,进而为未知类留下更多低密度区域;UPL根据预测结果的不确定性学习一种未知概率,进一步在已知类簇周围划分出更多的低密度区域。大量实验表明,我们方法可以显著提高开集目标检测的性能,如OpenDet 在六个 OSOD 基准上将绝对开集误差降低了25%到35%。

图片11.png 

1:开放目标检测与传统目标检测对比示意图

图片12.png 

2:本文方法的定量结果对比 


7、论文题目:Revisiting Document Image Dewarping by Grid Regularization

论文作者:Xiangwei Jiang, Rujiao Long, Nan Xue, Zhibo Yang, Cong Yao, Gui-Song Xia

指导教师:夏桂松教授、薛楠副教授

工作简介:文档图像数字化已成为了我们生活中的普遍需求,但由于文档图像存在非常严重的几何畸变,文档图像的数字化方法通常需要用户手工调整图像拍摄角度以消除输入图像的几何畸变。本文通过探索文档图像的几何性质,提出了一种顾及文档边界和文本行的几何网格正则化方法。该方法从几何角度出发,充分挖掘了组合优化方法与卷积神经网络的优势,将卷积神经网络的输出作为几何先验进行优化求解。该论文研究结论表明,传统的组合优化范式与卷积神经网络的完美结合能够进一步提升文档图像几何畸变矫正的性能。

图片13.png 

图1  本文方法的计算流程

图片14.png 

图2  算法的定性结果对比


8、论文题目:Learning Local-Global Contextual Adaptation for Multi-Person Pose Estimation

论文作者:Nan Xue, Tianfu Wu, Gui-Song Xia, Liangpei Zhang

指导教师:夏桂松教授、Tianfu Wu教授

工作简介:人体姿态估计是计算机视觉领域的重要科学问题之一。本文研究了自底向上(Bottom-up)的人体姿态估计问题,提出了一种局部-全局上下文适应学习的高效人体姿态估计方法LOGO-CAP。该方法以人体的中心位移矢量学习(Center-offset Learning)为基础得到初始的人体姿态关键点,在每个初始关键点附近学习一个局部动态卷积核,将其作用于全局关键点热力图上,解决了Center-offset Learning方法在人体姿态估计任务上所存在的定位精度不足的问题。在实验中,本文提出的方法在COCO数据集上相比于现有方法取得了大幅提升并实现了近实时的推理性能。在OCHuman数据集上,本文所提出的LOGO-CAP方法也展现了强大的泛化能力。

图片15.png 

1 本文方法的计算流程示意图

 图片16.png

SOTA方法比较的实验结果


9、论文题目:Partial Wasserstein Adversarial Network for Non-rigid Point Set Registration

论文作者: Zi-Ming Wang, Nan Xue, Ling Lei, Gui-Song Xia

指导教师:夏桂松教授、薛楠副教授

工作简介:由于噪声和异常点(Outliers)在点云数据中广泛存在,非刚体的三维点云配准是三维计算机视觉中极具挑战的任务。本文从分布匹配(Distribution Matching)的角度出发,创新性地将非刚体的三维点云配准问题建模为一个部分分布匹配问题(Partial Distribution Matching,PDM),探讨了PDM问题的数学理论与计算方法,首次得到了Partial Wasserstein距离的KR对偶形式,并提出了一种具备可扩展性的PDM计算方法PWAN。在非刚体点云配准问题上,本文提出的PWAN方法能够应对大比例(超过70%)的点云噪声和异常点,以无监督优化的形式大幅度超越了现有的点云配准方法。

图片17.png 

图1 本文方法(PWAN)与现有方法的定性对比结果


10、论文题目:Both Style and Fog Matter: Cumulative Domain Adaptation for Semantic Foggy Scene Understanding

作者Xianzheng Ma, Zhixiang Wang, Yacheng Zhan, Yinqiang Zheng, Dengxin Dai, Chia-Wen Lin, Zheng Wang

指导教师:王正教授

清晰场景下的语义场景理解问题已经取得了相当大的进展,但在恶劣的天气条件下,如浓雾情况下,由于不够清晰的成像造成的不确定性,它仍然是一个棘手的问题。此外,采集和标记雾天图像的高额成本也阻碍了该领域的进展。考虑到在清晰场景下语义场景理解任务的成功,我们认为将从清晰图像中学到的知识迁移到雾天领域是合理的。因此,该问题变成了缩小清晰图像和有雾图像之间的域差异。往常的方法主要集中在缩小由雾引起的领域差异---对有雾图像进行去雾操作或对清晰图像加合成雾,而我们提出通过同时考虑雾的影响和风格的变化来缩小领域差异。其动机是基于我们的发现,通过增加一个中间域,与图像风格相关的差异和与雾相关的差异可以分别被解耦出来并单独处理。因此,我们提出了一个新的框架来分别解耦图像风格、雾和混合因素(风格加雾)。具体来说,我们设计了一个统一的框架来分别解耦风格因素和雾因素,然后从不同领域的图像中分解出双重因素。此外,我们提出一个新的累加损失来额外监督这三个因素的解耦,以在域迁移的过程中彻底解耦这三个因素。我们的方法在三个基准数据集上取得了最先进的效果,并在雨天和雪天场景中显示出了一定的泛化能力。

图片18.png 

1 算法模型的框架图

图片19.png 

SOTA方法比较的实验结果


11、论文题目:Spatial-Temporal Space Hand-in-Hand: Spatial-Temporal Video Super-Resolution via Cycle-Projected Mutual Learning

作者:Mengshun Hu, Kui Jiang, Liang Liao, Jing Xiao, Junjun Jiang, Zheng Wang

指导教师:王正教授,肖晶副教授

时空视频超分任务是对视频的时间和空间维度进行联合超分,然而现在两阶段的方法分别对时间和空间维度进行视频超分,忽视了两个任务之间是互惠的。为了解决上述问题,我们提出了一种基于单阶段循环映射互相学习的策略,以保证时间和空间视频超分任务互相学习,进而促进时空信息的充分利用。 在所提出的方法中,我们设计了上下映射单元,有效地利用时间相关性用于空间细节的重建,同时,更新的空间信息反过来巩固时间的预测。通过多次的迭代,时间和空间信息能够完全的互相利用。基准数据集上的结果表明,所提出的方法在时间视频超分,空间视频超分和时空视频超分任务实现了显着改进。

图片20.png

1 算法模型的框架图

图片21.png

时空视频超分算法的定量结果

图片22.png 

图3 空间视频超分算法的定量结果

图片23.png

  4 空间视频超分算法的定量结果

 

发表论文清单:

[1] Ru, Lixiang, et al. "Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with Transformers." arXiv preprint arXiv:2203.02664 (2022).

[2] Ziyi Liu, Zengmao Wang, Bo Du. "Multi-marginal Contrastive Learning for Multi-label Subcellular Protein Localization." CVPR 2022.

[3] Wenke Huang, Mang Ye, Bo Du. "Learn from Others and Be Yourself in Heterogeneous Federated Learning." CVPR 2022.

[4] XiuWen Fang, Mang Ye, "Robust Federated Learning with Noisy and Heterogeneous Clients." CVPR 2022.

[5] Jian Ding, Nan Xue, Gui-Song Xia, Dengxin Dai. “Decoupling Zero-Shot Semantic Segmentation.” CVPR 2022

[6] Jiaming Han, Yuqiang Ren, Jian Ding, Xingjia Pan, Ke Yan, Gui-Song Xia. " Expanding Low-Density Latent Regions for Open-Set Object Detection " CVPR 2022.

[7] Xiangwei Jiang, Rujiao Long, Nan Xue, Zhibo Yang, Cong Yao, Gui-Song Xia. “Revisiting Document Image Dewarping by Grid Regularization.” CVPR 2022

[8] Nan Xue, Tianfu Wu, Gui-Song Xia. “Learning Local-Global Contextual Adaptation for Multi-Person Pose Estimation.” CVPR 2022

[9] Ziming Wang, Nan Xue, Ling Lei, Gui-Song Xia. “Partial Wasserstein Adversarial Network for Non-rigid Point Set Registration.” ICLR 2022

[10] Xianzheng Ma, Zhixiang Wang, Yacheng Zhan, Yinqiang Zheng, Dengxin Dai, Chia-Wen Lin, Zheng Wang, "Both Style and Fog Matter: Cumulative Domain Adaptation for Semantic Foggy Scene Understanding." CVPR 2022.

[11] Mengshun Hu, Kui Jiang, Liang Liao, Jing Xiao, Junjun Jiang, Zheng Wang. "Spatial-Temporal Space Hand-in-Hand: Spatial-Temporal Video Super-Resolution via Cycle-Projected Mutual Learning." CVPR 2022.