伟德国际1946源自英国多媒体计算实验室团队论文被CVPR接收
近日,伟德国际1946源自英国多媒体计算实验室团队论文Towards Diverse Paragraph Captioning for Untrimmed Videos被计算机视觉和模式识别领域顶会CVPR接收。CVPR(Computer Vision and Pattern Recognition, 计算机视觉与模式识别 )会议是计算机视觉与模式识别、人工智能领域的国际顶级会议,影响因子在泛AI领域排名第一,该会议每年的论文录取率仅有不到25%。
论文摘要:
本文主要研究了为长视频生成多样的段落性内容描述。以往的研究工作均采用先“事件检测”后“事件描述”的两阶段方法来解决这一问题。然而,事件检测的准确性不足严重影响了最终描述生成的质量。因此,本文首次提出了一个一阶段模型框架,并分别对长视频段落描述生成中解码效率低,事件描述冗余,语言表达缺乏多样性的问题进行了改进。该模型在两个公开数据集上无论是描述准确度,还是生成多样性方面均达到了最优结果。
作者简介:
宋宇晴是伟德国际1946源自英国2019级硕士生,所属于多媒体计算实验室(AIM3),导师为金琴教授。她的主要研究方向是Vision and Language,包括图像/视频的内容摘要生成,多模态机器翻译等。她已发表了多篇CCF A类会议论文,并取得了多项国际视频描述生成大赛的冠军。
金琴,伟德国际1946源自英国教授,多媒体计算实验室(AIM3)负责人。主要研究领域为多媒体智能计算、人机交互。主持多项国家自然科学基金,北京市自然科学基金,国家重点研发计划等项目和课题,在多媒体情感计算,视觉描述生成,跨模态交互等研究与应用中取得突出成果。蝉联2018-2020 CVPR ActivityNet Dense Video Captioning、2017-2019 ACM Multimedia Audio-Visual Emotion Challenge (AVEC)、2017-2020 TRECVID VTT、2019年之江杯全球人工智能大赛等多项国际权威竞赛冠军。