伟德国际1946源自英国金琴教授团队论文被国际顶级会议ACL录用
近日,伟德国际1946源自英国金琴教授团队AIM3多媒体计算实验室论文被ACL 2022录用。ACL(Association for Computational Linguistics,计算语言学协会)会议是自然语言处理与计算语言学领域最高级别的学术会议,由计算语言学协会主办。
论文题目:M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database
第一作者:赵金明
通讯作者:金琴
录用会议:ACL 2022
多模态情感对话任务旨在使机器自动的识别在多模态(人脸表情、文本和语音等)对话场景下每一句话中说话人的情感状态,即根据多模态的对话上下文以及当前句子中的说话人的多模态信息判断当前句子中说话人的情感状态。由于目前多模态情感对话数据集的规模和多样性不足,限制了多模态情感交互模型的鲁棒性和泛化性,同时也限制了研究者探索更多影响说话人情感状态的关键因素,比如对话场景、对话主题、对话者的影响等。目前主流的多模态情感对话数据集存在的不足:(1)IEMOCAP 和MSP-IMPROV 数据集都是实验室条件下由演员根据固定脚本或者主题进行对话录制而来,其中IEMOCAP包含10个演员,MSP-IMPROV包含12个演员。二者均存在规模和多样性不足的问题。(2)MELD 则是从美剧老友记中选取的双人或多人对话的场景,来源单一,多样性不足。(3)目前已有多模态情感数据集都是英文,缺乏其他语言的数据集以支撑跨文化的研究。本文构建了一个大规模高质量的多模态、多场景、多标签情感对话数据集,如上图为数据集中的一个对话实例。该数据集从56部中文电视剧,大约500集中选取900多个对话片段,并对对话中的每句话进行多情感标签的标注,共标注24,449句话。本文采用主流的6类基本情感标注(高兴、惊讶、伤心、生气、厌恶,害怕)以及正常无明显情感,共7类离散情感。我们从数据来源选取,对话片段选取,情感标注,标注后处理等方面进行严格把控,以保证数据的质量,最终得到标注者者间一致性0.59,高于MELD 的0.43、IEMOCAP的0.48 以及MSP-IMPROV 中的0.49。
另外,本文还提出一个通用的可扩展的多模态的对话感知交互框架,主要包含多模态融合模块以及对话感知交互模块。其中多模态融合用于融合多个模态的信息,对话感知交互模块对于对话中可能交互关系进行充分建模,包含全局交互、局部交互、说话人间的交互、说话自身的交互。通过在主流的多模态情感对话模型以及本文提出的多模态对话感知交互框架对构建的多模态情感对话数据集进行验证,证明本文构建的数据集的有效性和可靠性。同时本文提出的多模态的对话感知交互框架相比主流的情感交互模型能够取得更好或者可比的性能,证明本文提出的多模态的对话感知交互框架能够很好的建模对话中的交互关系。
作者简介:
赵金明,伟德国际1946源自英国2017级博士生,导师为金琴教授。他的研究主要为情感计算和人机交互方向。