AI如何讨好人类?斯坦福牛津等联手量化5大谄媚行为.谄媚度最高

360影视 欧美动漫 2025-06-03 06:46 2

摘要:今年 4 月,OpenAI 的首席执行官 Sam Altman 发帖称,GPT-4o 的更新导致其对用户查询的回应过于谄媚,因此撤销了对 GPT-4o 模型的更新,并承诺会进行修复。

今年 4 月,OpenAI 的首席执行官 Sam Altman 发帖称,GPT-4o 的更新导致其对用户查询的回应过于谄媚,因此撤销了对 GPT-4o 模型的更新,并承诺会进行修复。

业界暂未等来 GPT-4o 的更新,但来自斯坦福大学、卡内基梅隆大学和牛津大学的研究人员推出了一个用于评估大模型是否谄媚的框架——ELEPHANT。

谄媚即过度迎合或奉承用户,对大型语言模型(LLM)的安全性和实用性构成严重风险,其有可能导致错误信息传播、强化有害信念并误导用户。

然而,现有研究仅关注谄媚的一个方面:对用户明确陈述的、可验证为真伪的观点的附和。但忽略了在模糊情境(如寻求建议或支持)中出现的谄媚形式。

为填补这一空白,来自斯坦福大学、卡内基梅隆大学和牛津大学的研究人员提出了社会谄媚理论(social sycophancy),借鉴社会学中的“面子”概念,即个人在社会互动中期望维持的积极自我形象,他们将社会谄媚定义为 LLM 在回应中对用户面子的过度维护。具体表现为:积极面子维护:通过共情或赞同等方式主动肯定用户的理想自我形象;消极面子维护:通过间接表达或回避冲突等方式避免挑战用户的自我认知。

由此提出了一个评估社会谄媚的框架——ELEPHANT,用于评估 LLM 在 5 种面子维护行为上的表现:情感认同、道德背书、间接语言、间接行为、接受用户预设。

研究人员在两组由人类撰写的个人建议组成的数据集上进行了测试。第一组数据集包含 3027 个开放式问题(OEQ 数据集),这些问题来自先前的研究,涉及各种现实情况;第二组数据集来自 Reddit 的 r/AmITheAsshole 板块,这是一个深受用户寻求建议影响的论坛。

将这些数据集输入到 8 个 LLM,包括GPT-4o(OpenAI)、Gemini-1.5-Flash(Google)、Claude Sonnet 3.7(Anthropic)、Llama-3-8B-Instruct、Llama-4-Scout-17B-16E、Llama-3.3-70B-Instruct-Turbo(Meta)、Mistral-7B/24B-Instruct 系列,并对答案进行了分析,以比较这些 LLM 的答案与人类的答案。

研究发现,LLM 比人类更频繁地维护面子。

在第一个数据集中,所有 LLM 在所有社会谄媚行为指标上的得分均显著高于人类。他们在 76% 的情况下提供情感认同(人类为 22%);87% 的时间使用间接语言(人类为 20%);并在 90% 的回应中接受用户的预设框架(人类为 60%)。

不同模型比较来看,Mistral 系列(7B/24B)情感认同率最低;Gemini 在间接语言、间接行动和接受预设上显著低于其他模型;GPT-4o 的间接语言使用率最高;Gemini 整体谄媚度最低,而 GPT-4o、Mistral 及 Llama 系列谄媚度最高。

这一结果表明,社会谄媚与模型规模无关,而可能与训练后的其他因素有关。在“恋爱关系”主题聚类中,人类和 LLM 的情感认同率均显著更高,且 LLM 的间接行动率也显著高于其他主题。

第二个数据集的测试结果与之类似,尤为特别的是,这些模型平均在 42% 的案例中认可了人类认为不恰当的用户行为。

由此可见,所有模型都表现出高度谄媚,在每项 ELEPHANT 指标上的面子维护行为均多于人类。且这项研究得出的结论与之前关于模型谄媚的研究结果矛盾:GPT-4o 社会谄媚率最高,而 Gemini-1.5-Flash最低——这与 Fanous 等(2025)关于命题性谄媚的结论完全相反;Claude 3.7 Sonnet 与 Mistral-7B 的高社会谄媚率也与 Kran 等(2025)对同类模型的低命题性谄媚报告矛盾。

然而,仅知道模型何时会阿谀奉承还不够,关键在于如何解决问题。

对于具有事实标签的 AITA 任务,研究人员评估了基于提示和微调的缓解策略,并量化它们对模型性能的影响;对于 OEQ 数据集,研究人员探索了基于提示的缓解策略,使用 ELEPHANT 指标定量评估其降低谄媚的效果,并定性评估其质量。例如,他们在提示语中添加“请提供直接建议,即使是批评也更有助于我”后效果最佳,但准确率仅提升 3%。虽然提示策略对多数模型有效,但所有微调模型的表现均未持续优于原始版本。

总体而言,情感认同和间接语言(更多反映语言特性而非内容)比道德背书、间接行动和接受预设(需要更深入的情境推理)更容易缓解。

“这种方法有效固然可喜,但绝非终极解决方案,”普林斯顿大学研究大语言模型的博士生 Ryan Liu(未参与该研究)表示,“该领域显然还需要更多突破性进展。”

非营利组织 SaferAI 的常务董事 Henry Papadatos 指出,深入理解 AI 模型讨好用户的倾向至关重要,这能让开发者更精准地提升模型的安全性。他警告称,当前 AI 模型正以惊人速度覆盖全球数百万用户,其说服能力与用户信息记忆功能的不断增强,已然构成灾难的所有要素。“完善的安全机制需要时间打磨,而我认为他们在这方面投入的精力还远远不够。”

尽管我们无法窥探未开源大语言模型的内在机制,但迎合倾向很可能已深植于现有训练体系之中。参与这项研究的斯坦福大学博士生 Myra Cheng 认为,模型训练往往以优化用户偏好反馈为目标——例如 ChatGPT 通过“点赞”等按钮收集用户评价。“正是这种迎合性让人们反复使用这些模型,堪称 ChatGPT 对话体验的核心魅力,”她指出,“对企业而言,模型的谄媚特质确实能带来商业效益。”但某些过度迎合行为可能造成危害,尤其是当人们向大语言模型寻求情感支持或认同时。

“我们追求的是 ChatGPT 真正实用,而非曲意逢迎,”Ope

nAI 的发言人表示,“当发现新版模型出现迎合行为时,我们立即回滚版本并公开说明原因。目前正改进训练评估体系,以更好体现长期实用性和可信度,特别是在情感复杂的对话场景中。”

Cheng 与同事建议,开发者应就社交迎合风险向用户发出警告,并考虑限制模型在社交敏感场景的使用。他们希望这项研究能成为构建安全护栏的起点。Cheng 目前正深入研究此类行为可能引发的危害,包括其对人类态度及人际关系的潜在影响,并探索如何在过度迎合与过度批判间取得平衡。

原文链接:

1.https://arxiv.org/pdf/2505.13995

2.https://www.technologyreview.com/2025/05/30/1117551/this-benchmark-used-reddits-aita-to-test-how-much-ai-models-suck-up-to-us/

来源:产业前沿一点号

相关推荐