非标模态的多模态大语言模型模拟人类主观感受的方法探索

360影视 2025-01-06 18:53 3

摘要:在全球化传播的大潮中,中国品牌正努力跨越文化和情感的鸿沟,以全球消费者喜闻乐见的方式讲述品牌故事。然而,这一过程中,AI技术面临着前所未有的挑战:如何理解并模拟不同文化背景下人类的主观感受。当前,尽管AI技术在客观事物解析方面取得了显著进展,但在触及人类情感深

机器模拟人类主观感受:挑战、价值与创新路径

在全球化传播的大潮中,中国品牌正努力跨越文化和情感的鸿沟,以全球消费者喜闻乐见的方式讲述品牌故事。然而,这一过程中,AI技术面临着前所未有的挑战:如何理解并模拟不同文化背景下人类的主观感受。当前,尽管AI技术在客观事物解析方面取得了显著进展,但在触及人类情感深处、捕捉主观感知方面仍显力不从心。为应对这一挑战,明略科技踏上了探索之旅,旨在通过技术创新缩小技术与实际应用之间的鸿沟。

一、机器模拟人类主观感受的挑战与价值

在学术界的聚光灯下,李飞飞教授的一席话揭示了AI技术的软肋:即便拥有海量参数的大语言模型,也难以触及人类主观感受的微妙之处。这一观察直击AI在视频内容理解上的软肋——对主观层面的探究不足,且缺乏准确的测量标准。传统的研究方法多依赖于外在表现来推测内在情感,如通过观察人们的情绪反应或媒体传播的信息,但这种方式往往受限于人的伪装或真实感受与外在表现的不一致。

我们的研究正是基于这样的洞察,试图深入人的内心世界,通过直接采集和分析人的主观反应,开发出能够更精准地模拟和理解人类主观感受的技术。这不仅是对AI技术的革新,更是对人类情感认知的深化。现有的AI模型虽能通过分析表情、画面风格、故事情节等元素来传递情感,但这些元素所承载的情感与人的真实感受之间往往存在偏差。人的感受是复杂多变的,受到个人背景、喜好、状态等多重因素的影响。因此,要真正理解人的主观感受,就必须从多元视角出发,捕捉不同用户的自发情绪反应。

模拟主观感知能力的难点主要体现在三个方面:一是如何精确定义并有效获取用户的主观感知指标,这要求我们深入理解用户的个体差异和情感反应机制;二是如何高效、准确地采集主观感知数据,以支撑模型的训练和优化;三是如何实现AI对主观感知的精准模拟,这既是技术的挑战,也是对人类情感认知边界的探索。

二、Video-SME数据集与超图多模态大模型的构建

为了突破上述难点,明略科技构建了Video-SME数据集,这是一个大规模的视频主观多模态评估数据集。通过收集脑电波和眼动追踪数据,我们得以深入分析不同受试者对视频内容的认知理解程度。这些数据为我们提供了宝贵的窗口,得以窥探人类在观看视频时的内在反应和情感波动。

在此基础上,我们自研了超图多模态大语言模型(HMLLM),旨在探索人口统计特征、视频元素、脑电图和眼动追踪指标之间的复杂关联。这一模型不仅弥合了不同模态间的语义差距,还集成了帧间信息以执行逻辑推理,从而实现了对人类主观感受的更全面、更深入的模拟。实验结果证明了HMLLM的有效性,为机器模拟人类主观感受开辟了新的可能。

三、成果展示与实际应用场景

在AICon全球人工智能开发与应用大会上,我们分享了Video-SME数据集和超图多模态大模型的评测结果。实验显示,我们的模型在多个主客观指标上均取得了显著进步,为机器模拟人类主观感受提供了有力的证据支持。

展望未来,机器模拟人类主观感受的技术将在多个领域发挥重要作用。在品牌传播方面,它可以帮助品牌更精准地把握目标受众的情感需求,制定更有效的传播策略。在教育领域,它可以为学生提供个性化的学习体验,根据学生的学习情感和认知状态调整教学内容和方式。在娱乐产业中,它则可以提升内容的互动性和沉浸感,让观众在享受娱乐的同时获得更深层次的情感体验。

总之,机器模拟人类主观感受的研究不仅是对AI技术的革新,更是对人类情感认知的深化和拓展。随着技术的不断进步和应用场景的日益丰富,我们有理由相信,未来的AI将更加懂得人心、更加贴近人性。

四、Video-SME数据集:突破视频理解的主观感受局限

现有的视频理解数据集大多聚焦于单一的元素,缺乏复杂性和故事情节,且问题设置往往局限于显性的客观部分,如动作识别或人物身份识别,忽视了主观感受这一重要维度。为了填补这一空白,我们精心构建了Video-SME数据集,它采用多种传感器和设备,全面记录受试者在观看目标视频时的脑电波和眼动数据。

Video-SME数据集以广告视频为主要内容,这些视频分镜众多,情节复杂,为数据集提供了丰富的模态和复杂性。与传统数据集基于预设选项的评测标准不同,我们采用了描述性的评测标准,以更准确地捕捉和分析受试者的主观感受。数据集的生成流程细致入微,包括将视频精准拆分为多个分镜,将语音转化为文本,并记录不同受试者的主观指标,如脑电波、认知状态、情绪和眼动数据,确保这些数据与分镜内容紧密对应。此外,我们还设计了针对性的问答环节,以深入评估受试者的认知程度。

在Video-SME数据集中,我们精心设计了两种任务:主观任务和客观任务。主观任务的核心在于预测三个关键主观指标:认知状态、情绪和眼动注视比例。为了量化这些指标并构建能够模拟它们的模型,我们采用了创新的分类方法。认知状态通过数值判断,情绪基于数据的正态分布特性分为消极、自然和积极三类,眼动注视比例则依据注视程度分为完全没有注释、部分注释和完全注释三类。我们还进一步细化为两个协议:P1假设通用受众模型,预测其脑电变化;P2则深入考虑受众的个体差异,包括性别和年龄等因素,使问题和答案更加丰富多样。客观任务则涉及开放性的文本生成,要求模型生成描述性的答案。

五、超图多模态大模型:模拟人类主观感受的技术革新

随着Video-SME数据集的建立,我们着手探索如何有效解决模拟人类主观感受的挑战。我们的算法定位为一个针对垂直领域的多模态模型,旨在超越通用基础模型的局限。在此过程中,我们引入了超图理论,它允许一条超边连接多个点,这在视频理解任务中尤为关键,因为视频帧与帧之间的关系可能跨越较长时间维度,涉及多个帧的复杂交互。

我们的算法架构分为训练和推理两个阶段。在训练阶段,我们首先专注于客观部分的训练,即对视频内容的客观描述,主要强化语言模型部分。随后,我们转向主观部分的训练,引入超图学习模块(SAL-HL),该模块综合考虑观众的性别、年龄等信息,以视觉编码器(如VIT)作为输入,以脑电属性的真实标签作为监督信号。此外,我们还训练了一个投影器(projector),并通过设置权重λ来精细调整超图模块对整个网络结构的影响。在推理阶段,观众的信息直接整合到提示中,根据提问的提示直接给出答案。

以沃尔沃卡车广告为例,我们的模型能够同时输出客观描述和主观描述。客观描述如“一个人在两辆行驶的卡车间做一字马”,主观描述则包括“30至34岁男性观看后的认知和情绪反应”。模型还展示了不同性别和年龄段观众的眼动注视区域,通过热力图反映了观众在观看视频时的真实注意力分布,揭示了不同人群对同一画面内容的关注点差异。

六、主客观指标评测结果与模型性能

Video-SME数据集通过多个关键指标来衡量模型的性能,包括客观描述和三种脑电反应:主观认知、主观情绪和眼动比例。在这些特殊任务上,商用模型如Gimma 1.5、GPT-4o在主观指标预测上的表现并不理想。经过精心训练和微调,我们的方法在这些任务上展现出了显著优势。

在Video-MME数据集上,由于主要涉及客观层面的理解,且形式为选择题,商用模型的表现普遍较好。然而,在VideoEmotion-8数据集上,仅使用视觉模态,我们的模型就达到了59.8%的准确率,彰显了其强大潜力。在Video Conversation基准测试中,我们的模型在多种任务上达到了SOTA(State of the Art)水平。消融学习实验进一步表明,当权重λ设置为0.1时,模型表现最佳,验证了超图模块在适当权重下的显著提升作用。

在定性分析中,我们的模型在识别抹茶味巧克力派和东鹏特饮广告时,均展现出了超越其他开源模型的准确性。例如,在识别抹茶味巧克力派的视频中,我们的模型能够准确指出这是一种零食,且可能受到年轻人或儿童的欢迎,而其他模型则误判为冰激凌。在分析东鹏特饮的广告时,我们的模型能够准确识别出这是一种与运动力量和冒险相关的运动饮料,而其他模型如Gemini则错误地将其归类为旅行或冒险。

七、机器模拟人类主观感受的应用场景与前景

我们开发了一款名为Adeff的产品,它能够从主观和客观两个维度对广告内容进行全面评测。以YouTube上兰蔻的广告为例,Adeff能够提供整个视频的客观描述,对视频分镜进行详细分析,并给出每个分镜的主观指标,如脑电效果、情绪和注视比例。Adeff的应用不仅限于单一广告,通过对比不同受众群体的反应,如普通受众与特定年龄和性别的受众,Adeff能够展示广告对不同人群的吸引力差异。

利用机器模拟人类主观感受进行广告创意评测,可以显著降低成本,提高评测效率。传统上,进行全面的创意评测需要大量人力和设备投入,而AI的介入使这一过程更加经济高效。AI模型可以通过真人测量数据进行训练和校正,提供快速、全面的评测结果,降低投放风险,缩短测试周期,并实现规模化测量。

我们的研究不仅在理论上取得了突破,而且在实践中也获得了成功。Adeff产品能够提前预测广告效果,帮助客户优化广告内容,避免无效投放。通过分析广告母片和街片的分镜,我们可以精准识别出哪些分镜更受欢迎,从而指导广告剪辑和投放策略。

八、总结

机器模拟人的主观感受不仅标志着技术的重大进步,也为我们深入理解人类认知和情感提供了新的视角。这一领域的研究可能是机器产生自我意识的开端,激发了人们对机器意识可能性的广泛思考。通过先进的算法和多模态数据集,机器已经具备了有效手段来模拟人类的主观感受。随着多模态大语言模型的范式不断发展和优化,我们可以期待AI在模拟人类主观感受方面取得更多突破,为人工智能的发展开辟新的道路。

华远系统是致力于人工智能(AI算法以及流媒体技术),信息软件技术,新能源、物联网等领域的集成商,在智慧社区,智慧园区,智慧停车,充电桩(储能充电站/光储充)及充电桩软件管理平台,储能系统集成,车联网有整套解决方案以及成功的项目案例。

来源:华远系统

相关推荐