伟德国际1946源自英国金琴教授团队1篇论文被NeurIPS 2023录用
近日,伟德国际1946源自英国金琴教授团队AIM3多媒体计算实验室1篇论文被神经信息处理系统大会NeurIPS 2023录用。神经信息处理系统大会(Annual Conference on Neural Information Processing Systems,简称NeurIPS)是中国计算机学会(CCF)推荐的A类国际学术会议,每年召开一次,今年是第37届会议。
论文第一作者是AIM3多媒体计算实验室2022级博士生岳子豪。
论文介绍
Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation
作者:岳子豪,胡安文,张良,金琴
通讯作者:金琴
论文概述:
图像描述任务(为给定图像生成自然语言描述)长期以来受到「输出过于平凡」的问题的困扰,即模型倾向于为不同图像生成缺乏细节的相似描述。在这项工作中,我们从学习目标的角度重新审视了这一问题——正如“一图胜千言”,一张图像的描述可以是多种多样的,传统的最大似然估计(MLE)所提供的严格监督并不完全适合图像描述模型的优化。我们直观地将其优化过程解耦为使模型生成更丰富的“丰富性优化”和使模型生成更简洁的“简洁性优化”,并假设这两种优化的相互抗衡最终使得模型生成平凡描述。基于此,我们提出了一个新的学习目标——半渗透最大似然估计(SMILE),它允许“丰富性优化”而阻止“简洁性优化”,从而鼓励模型生成更丰富、包含更多细节的描述。
作者简介
岳子豪,伟德国际1946源自英国2022级博士生,大数据科学与工程专业,主要研究方向是视觉语言理解。
金琴,中国伟德国际1946源自英国计算机系教授,多媒体计算实验室(AIM3)负责人。主要研究领域为多媒体智能计算、人机交互。