金琴副教授团队蝉联CVPR ActivityNet Challenge冠军
在刚刚结束的计算机视觉顶级会议CVPR 2019上,金琴副教授指导的团队在由Google DeepMind、KAUST等承办的 ActivityNet Challenge挑战赛中再次荣获Dense Video Captioning冠军,展现了该团队在视频内容描述生成领域的突出实力。
ActivityNet Dense Video Captioning Challenge由斯坦福大学发起,已在CVPR会议上连续举办了3年,是视频内容描述生成领域最具影响力的比赛之一。该挑战赛的任务为Dense Video Captioning(密集视频内容描述生成),即对长视频中展现的所有事件进行时间上的定位和切分,并逐一生成自然语言描述。与传统的针对短视频生成单句自然语言描述的视频描述生成任务相比,该任务更贴近于现实生活中的真实需求,技术上的难度也大大提升。
该挑战赛今年共吸引了全球25支队伍参赛,来自国内的队伍包括清华大学、北京大学、复旦大学、百度、腾讯AI等。金琴副教授的团队在去年夺冠方案的基础上,进一步考虑了事件的上下文对Dense Video Captioning的影响。在长视频中出现的多个事件并不是独立的,而是彼此关联的。考虑上下文信息有助于理解和区分当前事件。因此,金琴副教授团队充分利用了视觉、文本等不同类型的上下文内容,并根据这些不同的类型提出了两大类上下文建模方法。该模型在视频内容描述生成的准确性和多样性两个评价维度上均有较大提升,最终斩获该挑战赛的第一名。
团队的主要学生成员包括:陈师哲(博四)、宋宇晴(大四)、赵一达(大四)。
从左至右为:赵一达、金琴、陈师哲、宋宇晴