摘要:在日常交流中,我们不仅通过言语传递信息,还通过面部表情、点头或摇头等非语言线索表达情感和态度。当我们与朋友交谈时,这种多维度互动似乎是自然而然的,但要让人工智能系统实现类似的交流能力,却是一项极具挑战性的任务。
来自沙特阿拉伯阿卜杜拉国王科技大学(KAUST)的Cheng Luo、Jianghui Wang、Bing Li和Bernard Ghanem,以及英国埃克塞特大学的Siyang Song的研究团队,于2025年5月在arXiv上发表了题为《OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions》的前沿研究。该论文提出了一种创新系统,能够在实时对话中同步生成与说话者多模态输入相匹配的语言和非语言反馈。
想象一下,当你对着电脑屏幕讲话时,屏幕上的虚拟助手不仅能理解你的话语,还能根据你的表情和语调做出适当的面部反应,甚至在你说话的间隙插入简短的回应,就像真实的人际对话一样自然流畅。这正是OmniResponse系统的核心功能——它能够在线实时地生成与说话者输入同步的、多模态的听众反馈。
在论文中,研究团队首次定义了"在线多模态对话响应生成"(Online Multimodal Conversational Response Generation, OMCRG)这一全新任务。与传统的对话系统不同,OMCRG任务要求系统能够处理说话者的语音和视觉输入流,并在实时情境下生成同步的听众反馈,包括面部表情、头部动作和口头回应。
为解决这一复杂挑战,研究团队开发了OmniResponse系统,它巧妙地将文本作为中间媒介,连接面部反应和语音输出。系统的核心组件"时序文本标记"(Chrono-Text)能够为生成的文本标记明确的时间信息,而"节奏语音"(TempoVoice)组件则能将这些带有时间标记的文本转换为与面部表情完美同步的语音。
为了支持这一研究,团队还构建了ResponseNet数据集,包含696对高质量的双人对话视频,每对视频都提供了同步的分屏视频、多通道音频、文字转录和面部行为标注。这一宝贵资源为OMCRG研究提供了标准化的评估基准。
通过在ResponseNet上的全面评估,OmniResponse在语义内容质量、音视频同步性和生成质量方面都显著优于基线模型,展示了其强大的多模态对话能力。
这项研究不仅在技术上取得了突破,还为未来的人机交互、沉浸式元宇宙体验和心理健康干预等应用开辟了新的可能性。接下来,让我们深入了解OmniResponse系统的工作原理和它在实际应用中的潜力。
一、OMCRG任务:在线多模态对话响应生成的全新挑战
在人际交流中,对话双方不仅仅是轮流说话的机器,而是在整个交流过程中持续互动的参与者。当一个人讲话时,另一方会通过点头、微笑或简短的回应词如"嗯"、"是的"等来表示理解和关注。这种实时反馈是自然对话的核心要素,却也是当前人工智能系统最难以模拟的能力之一。
研究团队首次提出的OMCRG任务,就像是给AI系统安装了"社交大脑",让它能够像人类一样在对话中做出实时的、多模态的反应。在OMCRG任务中,系统需要处理说话者的实时视频和音频流,并生成听众的面部表情、头部动作和语音回应,这些回应必须在时间上与说话者的输入保持同步。
传统的多模态对话生成方法往往是离线的,也就是说,系统需要等待说话者完成整段输入后,才能生成完整的回应。这就像是在观看一段预先录制好的视频,而非参与实时对话。相比之下,OMCRG任务要求系统能够边接收输入边生成输出,就像人类在实际对话中做的那样。
这一任务面临三大核心挑战:首先,实现生成音频和面部反应之间的精确同步极其困难。即使在给定完整音频的情况下,现有的说话头生成技术也难以实现完美的音视频同步,而OMCRG任务则要求在没有完整音频的情况下同时生成音频和面部反应,难度更上一层楼。
其次,由于在线设置的特性,系统需要基于部分输入进行推理并即时生成回应,这要求系统具备强大的音视频理解和生成能力。虽然在语言和视觉领域已有强大的预训练模型,但音频建模相对不够发达,使得生成富有表现力和适当的音频和面部反应更具挑战性。
第三,缺乏高质量的双人多模态交互数据集严重阻碍了OMCRG研究的发展。现有的数据集要么缺乏同步的分屏视频,要么没有分离的音频通道,要么缺乏详细的文本标注和面部行为标注。
为解决这些挑战,研究团队提出了一个统一的框架——OmniResponse,它能够自回归地生成高质量的多模态听众反应。这个系统的核心思想是引入文本作为中间模态,将面部反应与音频输出连接起来。相比直接同步生成的音频和面部反应,文本具有更清晰的语义和更低的不确定性,使得多模态反应生成更加可控。然而,文本是静态的,缺乏时间维度的信息,这为将口语与视觉帧同步带来了新的挑战。
为克服这一问题,研究团队开发了两个创新模块:Chrono-Text和TempoVoice。Chrono-Text模块通过在文本中插入时间标记,为生成的文本赋予时间维度,确保文字与视觉帧之间的精确对齐。TempoVoice则是一个可控的在线文本转语音模块,能够基于带有时间标记的文本嵌入生成同步的音频,确保音频与面部反应之间的精确同步。
这种将文本作为桥梁的方法,巧妙地解决了多模态同步生成的难题,为OMCRG任务提供了一个可行且高效的解决方案。
二、OmniResponse系统:多模态大语言模型的创新架构
OmniResponse系统的核心是一个经过增强的多模态大语言模型(MLLM),它能够处理说话者和听众的多种模态输入,对不同模态进行时间对齐,并输出同步的多模态响应。
想象OmniResponse就像一个超级技能的交谈伙伴,它不仅能听懂你说什么,还能看懂你的面部表情,同时生成适当的面部反应和语音回应,就像真实的人际对话一样自然流畅。这个系统的独特之处在于它能在说话者还在说话的过程中,就开始生成听众的实时反应,而不是等待说话者说完整段话才做出回应。
OmniResponse的系统架构包括多个关键组件,让我们一一解析:
首先,系统接收两类输入:一类是静态文本输入,包括任务指令提示和对话历史;另一类是时序输入,包括之前生成的听众面部特征、说话者的面部特征以及双方累积的文本序列。
系统的核心是一个预训练的大语言模型(论文中使用的是Phi-3.5 mini-instruct,参数量为3.8B),它负责融合不同模态的输入并生成多模态输出。为了让这个语言模型能够处理视觉信息,研究团队引入了视觉投影层。这一层就像是翻译官,将听众和说话者的面部特征转换为与语言模型兼容的嵌入特征。
在自回归生成过程中,多模态大语言模型使用因果自注意机制来建模不同模态之间的时序依赖关系,并输出下一个听众视觉嵌入。然后,一个可学习的视觉解码器将这些嵌入转换回原始系数空间,生成预测的听众面部系数。最后,一个预训练的视觉渲染器将这些视觉系数映射到2D帧,使用给定的人像图像。
Chrono-Text标记是系统的关键创新点之一。视觉帧本身就包含时间信息,而文本则是静态的,缺乏任何时间维度。此外,视觉帧和文本标记在长度上通常不同,这使得统一的自回归预测变得具有挑战性。为解决这一不匹配问题,研究团队提出了Chrono-Text标记,这是一种简单而有效的方法,可以将时间信息明确地嵌入到文本数据中,使文本序列与视觉帧序列精确对齐。
具体来说,他们在文本中插入两种特殊标记:[PAUSE]表示话语之间的静默间隔,[LASTING]表示前一个文本词继续发音到当前时间。每个文本标记都放置在暂停和持续标记之间。这种方法确保了文本和视觉序列具有相同的长度,使自回归生成更加一致。
OmniResponse的多模态上下文建模机制也非常巧妙。系统将输入序列分为静态流和动态流,并通过单一的因果全注意力层将它们融合在一起。静态流包括指令提示和完整的对话历史,这些标记永远不会被掩蔽,因此对序列中的每个其他标记都是可见的。动态流则包括帧对齐的视觉嵌入和带有时间戳的说话者和听众文本标记。
在全注意力机制下,每个视觉标记都会关注前面的视觉标记,以及在更早时间戳处由Chrono-Text标记标记的文本标记;同样,每个动态文本标记都会关注过去的视觉和文本标记。然而,这种全注意力机制会阻止动态标记查看未来的标记,确保生成过程遵循时间动态和跨模态交互。同时,静态标记保持全局可访问,确保每次动态更新都受到总体指令的指导。
TempoVoice是另一个创新组件,它负责将生成的文本转换为与面部帧精确同步的音频波形。传统的文本转语音系统通常需要完整的文本输入才能生成语音,而TempoVoice则能够基于部分文本输入生成实时的语音输出。
TempoVoice的工作原理是:首先将听众的声纹(通过Spark-TTS全局分词器提取,用于捕获说话者身份)与生成文本的隐藏状态结合,然后对合并的嵌入应用正弦位置编码。由于音频标记序列的长度通常与视觉帧和文本标记不同,系统会在前面添加一系列零初始化的占位符标记,每个标记都带有位置信息。这些占位符在Transformer解码器的交叉注意力模块中充当查询,关注融合的文本-声音表示。这种机制使得音频标记能够与视觉帧和文本标记完全同步,以自回归方式生成。最后,线性投影层将解码器输出映射到离散音频编解码器词汇表上的logits。
训练OmniResponse系统的目标是文本生成损失、视觉重建损失和音频生成损失的加权组合:
文本损失鼓励在给定说话者上下文和过去听众状态的条件下准确预测下一个标记。视觉重建损失通过在听众的特征嵌入上应用L2重建损失,使预测的面部动态与真实动态对齐。音频损失则在离散语义标记上操作,最大化每个标记在给定先前音频语义和听众隐藏状态条件下的似然。
通过这种统一的训练目标,OmniResponse系统能够学习生成高质量、时间同步的多模态听众反应,为OMCRG任务提供了一个强大而灵活的解决方案。
三、ResponseNet数据集:为多模态对话研究提供新基准
研究团队意识到,现有的公开可用双人视频数据集并不满足OMCRG任务的要求。例如,单视图说话头数据集和离线对话语料库不提供同时捕捉说话者和听众的分屏录制。其他数据集如IEMOCAP主要是侧面轮廓视图,在嘈杂环境中录制,并且只提供混合音频通道,因此无法单独分析每个参与者的语音。此外,像ViCo、ICD和REACT2024这样的数据集缺乏全面的文本标注,视频分辨率低,或者口语不一致。
为了填补这一数据集空白,研究团队构建了ResponseNet,它包含696对时间同步的双人视频对,总计超过14小时的自然对话交流。每对视频都提供了说话者和听众的高分辨率(1024×1024)正面脸部流,以及分离的音频通道,以支持对语言和非语言行为的细粒度分析。ResponseNet是唯一一个同时满足在线视频流、单独音频通道和双方参与者词级文本标注等关键要求的数据集。
ResponseNet的构建遵循一个严格的工作流程,集成了自动化工具和广泛的人工策划。首先,根据预定义的主题和质量标准,从YouTube上获取同时出现说话者和听众的分屏视频。然后,对这些视频进行过滤,去除低分辨率、嘈杂或频繁摄像机过渡的部分。人类标注者进行彻底审查,纠正摄像机视图错位并确保流之间的精确时间同步。接下来,使用像MossFormer2这样的说话者分离工具将混合通道音频轨道自动分离为离散的说话者和听众通道,并由专家验证和细化。最后,通过自动语音识别生成词级转录,并经过人工校对以保证准确性。
通过在数据采集、预处理、对齐、音频分离和标注过程中结合自动化和细致的人工监督,这一流程产生了一个高质量、丰富标注的双人视频语料库,非常适合多模态对话响应生成研究。
ResponseNet的数据统计显示,说话者-听众视频片段的持续时间从27.13秒(短对话)到863.13秒(长对话)不等。ResponseNet的平均片段持续时间为73.39秒,明显长于其他双人数据集如REACT2024(30秒)和Vico(9秒)。这种延长的持续时间确保每个片段捕捉到足够的对话交流。
对话内容跨越多种主题,包括专业讨论(如经济访谈、新闻评论)、情感驱动的互动(如亲密对话)、教育环境(如教学访谈)和跨学科专家讨论。对话中最常见的单词展示了丰富多样的人际交流,而不是局限于狭窄或单调的对话模式。与个人关系相关的词(如"爱"、"家庭"、"朋友")和更广泛的现实世界话题(如"世界"、"市场"、"历史"、"学校")都很突出。
这种多样性表明,ResponseNet捕捉了丰富多样的人际互动,为训练和评估多模态对话响应生成系统提供了宝贵的资源。
四、实验结果:OmniResponse的性能评估
在众多实验中,研究团队使用ResponseNet测试集对OmniResponse系统进行了全面评估,并与各种基线方法进行了比较。
评估多模态响应生成的质量本身就是一项非常复杂的任务。为了全面评估生成结果,研究团队采用了一系列涵盖文本、音频和视觉模态的评估指标。
对于文本响应,他们使用METEOR、BERTScoreF1和ROUGE-L来衡量生成响应与参考响应的相似度,并使用Distinct-2来评估词汇多样性。对于音频响应,他们采用UTMOSv2(一种神经MOS预测器)来估计感知自然度,并使用LSE-D(唇-语音错误距离)来评估生成语音与唇部运动之间的同步性。对于面部响应,他们计算实际和生成的面部特征分布之间的Fréchet距离(FD),以及Fréchet视频距离(FVD)来评估生成视频序列的时空质量。
由于OMCRG是一个全新的任务,几乎没有现有工作可以直接比较。因此,研究团队构建了两个基线:一个基于LSTM的方法,它使用循环神经网络进行时序序列建模;另一个是音视频LLM,它接收说话者-听众的音频和视觉输入,并利用预训练的LLM自回归地生成音视频帧。此外,他们还列出了代表性的单模态生成方法的性能,包括离线文本对话模型(如GPT变体)、在线音频生成模型(如Moshi)和面部反应生成方法。
实验结果显示,OmniResponse在对话语音内容(METEOR、BERTScoreF1、ROUGE-L、Distinct-2)、音频质量(UTMOSv2)、音视频同步(LSE-D)以及时间一致性和视觉质量(FVD)方面都取得了最佳性能。虽然LSTM基线由于倾向于生成重复的静态视觉输出而获得较低的FD,但它无法生成丰富、同步的多模态响应。音视频LLM在语音内容质量(METEOR和BertScoreF1)方面表现较差,并且在音视频同步(LSE-D)方面遇到困难。尽管音视频LLM利用了强大的LLM,但在没有强大音频基础模型的情况下,直接同步生成的音频与面部反应仍然具有挑战性。相比之下,OmniResponse提出了一个新颖的框架,通过提出的Chrono-Text标记和Tempo Voice,有效地使预训练LLM适应音视频生成。
定性结果展示了OmniResponse的实际效果。生成的听众在说话者说话时保持沉默,但在每个说话者回合结束时立即或延迟做出回应。这种行为表明OmniResponse有效地捕捉了在线双人对话的时间动态,并在适当的时间戳生成响应。例如,在100.97到132.05秒之间,听众在120.13到121.57秒之间短暂插话,响应说话者正在进行的内容,反映了自然的人际对话互动。相比之下,将ASR、对话生成、TTS和说话头组件集成在一起的传统管道会等待预定义的静默阈值才产生离线多模态响应,从而降低了对话行为如插话、反馈通道、问题和即时反馈的质量。相反,OmniResponse通过持续建模和生成文本、视觉和音频输出的同步时间序列流,保持了双人对话的连续流动。
研究团队还进行了消融研究,以评估所提出的Chrono-Text标记和TempoVoice组件的有效性。结果表明,结合Chrono-Text标记显著改善了音视频同步,将LSE-D分数从11.51降低到9.56。此外,它增强了语音与对话上下文的语义对齐,将METEOR从0.122提高到0.141,将BERTScoreF1从0.766提高到0.806。FD和UTMOSv2的改进进一步表明,Chrono-Text标记提高了生成的音频和面部响应的质量。这些结果证明了Chrono-Text标记在生成高质量多模态响应方面的有效性。
同样,消融研究显示,移除TempoVoice会降低音视频同步性,并降低生成的音频响应质量,UTMOSv2从1.41下降到1.23,LSE-D从9.56增加到11.91。这些结果突显了TempoVoice在时间上对齐音频与其他模态并增强生成音频质量方面的重要性。
总体而言,实验结果证明了OmniResponse在生成高质量、时间同步的多模态响应方面的卓越性能,为未来的OMCRG研究奠定了坚实的基础。
五、结论与未来展望
OmniResponse系统的研究成果不仅是一项技术突破,更是人机交互领域的重要里程碑。通过实现在线多模态对话响应生成,这项研究为更自然、更沉浸式的人机交互体验铺平了道路。
想象未来的虚拟助手不再只是冷冰冰地回答问题,而是能够像真人一样,在你说话的同时点头微笑,在你停顿时适时插入简短回应,甚至能根据对话内容做出情感反应。这种类人化的交互体验将大大提升人机交互的自然度和用户满意度。
在元宇宙和虚拟现实领域,OmniResponse技术可以应用于创建更加逼真的虚拟角色,使虚拟社交体验更加自然和沉浸。想象在虚拟会议室中,你的数字分身不仅能传达你的语言内容,还能准确模拟你的面部表情和非语言反应,使远程交流体验更接近面对面交流。
在心理健康领域,这项技术可以用于开发更具同理心的虚拟治疗师或伴侣。这些虚拟助手能够通过面部表情和声音反应表达理解和共情,为那些需要心理支持但难以接触专业人士的人群提供帮助。
在教育领域,OmniResponse技术可以用于开发更具互动性的虚拟教师或学习伴侣,能够根据学生的表情和语气调整教学策略,提供更个性化的学习体验。
当然,这项研究也存在一些局限性。系统的性能在很大程度上依赖于训练数据的质量和多样性,在嘈杂或有重叠对话的环境中可能表现不佳。此外,在快速变化或情感丰富的互动中生成对齐良好的多模态响应仍然具有挑战性。
未来的研究方向可能包括:增强系统处理更复杂情感状态的能力;改进跨文化和多语言环境下的表现;开发更轻量级的模型以便在移动设备上实时运行;以及探索将这一技术与其他模态(如触觉反馈)结合的可能性。
OmniResponse系统的出现标志着我们向创建真正自然、无缝的人机交互迈出了重要一步。随着这一技术的不断发展和完善,我们可以期待未来的数字助手和虚拟角色将变得越来越像真实的交流伙伴,为我们的数字生活带来更丰富、更有意义的互动体验。
来源:至顶网一点号