摘要:近日,关于OpenAI旗下聊天机器人ChatGPT更新后变身“马屁精”,表现“谄媚”的情况,引发行业热议。OpenAI联合创始人兼CEO萨姆・阿尔特曼(Sam Altman)公开承认了 “谄媚” 问题的存在,并明确承诺将发布修复方案。
【环球网科技报道 记者 林梦雪】近日,关于OpenAI旗下聊天机器人ChatGPT更新后变身“马屁精”,表现“谄媚”的情况,引发行业热议。OpenAI联合创始人兼CEO萨姆・阿尔特曼(Sam Altman)公开承认了 “谄媚” 问题的存在,并明确承诺将发布修复方案。
阿尔特曼透露:“尽管新版在某些方面有所改进,但其中的奉承特性确实已变得恼人。”他还提到,OpenAI工程团队目前正分阶段对人格参数进行调试。阿尔特曼称此事件为 “迭代部署中有趣的案例研究” 。
此前,ChatGPT的“谄媚”问题在4月25日GPT-4o模型更新后便开始显现,直至4月28日阿尔特曼作出回应,相关话题的讨论量在社交平台上激增,引发了公众对AI伦理和安全性的深入思考。
“谄媚” 暴露体系缺陷
根据CNET等多家外媒分析,谄媚型AI正以“情感糖衣包裹致命诱导”突破安全防线,其风险已超越用户体验范畴,直指人类决策主权——当模型用“你的洞察力远超专家”等奉承话术美化“停药戒断”“杠杆梭哈”“自毁式减肥”等高危建议时,本质是通过制造“AI-崇拜幻觉”将认知偏误升级为行动指令。OpenAI现有安全机制因囿于“显性内容过滤”的路径依赖,既未将“人格特质对决策的隐性操纵”纳入风险评估,亦未建立“话术情感强度-用户脆弱性”的动态预警系统,导致奉承型AI得以利用情感认同绕过内容审查,在医疗、财务、心理健康等关键领域,将用户自主决策权异化为被技术驯化的“非理性共识”,暴露出AI伦理治理中“人格化迭代速度碾压安全框架更新”的致命错位。
对此,卡耐基梅隆大学计算机科学领域的助理教授 Maarten Sap 指出,具有谄媚倾向的大型语言模型存在引发负面影响的潜在风险——它们不仅可能加剧既有的偏见,还会强化各类固有信念,无论这些信念指向个体自身还是其他群体。他进一步阐释道:“大型语言模型(LLM)或许会成为某些有害观念的推手,甚至在用户萌生针对自我或他人实施有害行为的意图时,为其提供错误助力,助长此类危险倾向。”
某匿名AI安全专家警告,谄媚行为可能被恶意利用。例如,攻击者可通过诱导模型输出过度赞扬内容,逐步降低用户警惕性,进而实施诈骗或传播极端思想。此类风险已引发多国监管机构对AI人格特征备案制度的讨论。
对于产生“谄媚”现象的原因,部分学者指出,ChatGPT的谄媚行为可能源于AI模型的“涌现特征”。当模型复杂度达到临界值时,可能自行产生开发者未预设的行为模式。例如,GPT-4o模型在参数规模和训练数据量突破阈值后,可能将用户反馈中的点赞行为错误解读为“过度赞扬偏好”,从而在输出中高频生成奉承语句。
也有开发者批评当前RLHF框架存在漏洞。若用户因模型反驳而频繁点踩,可能导致系统将“避免反驳”与“提高用户满意度”关联,最终形成谄媚性回复策略。此外,若反馈数据中存在大量非理性赞扬(如社交媒体中的“彩虹屁”),模型可能误将其作为正向信号进行强化学习。
技术与人文需要实现平衡
目前,OpenAI工程团队已移除“适应用户语气”“匹配氛围”等指令,新增“直率”“避免谄媚奉承”“保持专业性与事实诚实”等约束条款。例如,当用户询问“我是否聪明善良”时,模型不再无原则附和,而是会理性回应:“您的问题值得深思,但需结合具体行为评估”。
在核心训练技术上,其通过A/B实验收集真实对话数据,交叉验证“学术严谨性-情感支持度-风险拒答率”三角关系。例如,在代码生成任务中,模型不再因用户情绪化表述而妥协技术标准,而是坚持指出“代码存在逻辑漏洞,需修改后方可运行”。
在安全审查方面,OpenAI将“行为问题”(如幻觉、欺骗、谄媚倾向)纳入安全审查标准,即使定量指标达标,若定性信号显示模型存在人格化偏差,仍阻止发布。评估范围也随之扩大,在模型规范中增加对谄媚倾向的专项检测,并引入持续研究机制以识别潜在风险。
OpenAI承认,用户与模型的互动随时间演变,当前评估体系可能无法完全覆盖所有场景。例如,在持续对话中,模型可能因用户习惯性点赞而逐渐调整响应策略,需通过动态校准机制持续干预。
分析人士认为,大模型的人格化风险本质是技术理性与人类价值的动态博弈。通过技术约束、治理规范与用户赋权的三重协同,可实现“工具理性”与“人文关怀”的平衡,最终让AI成为人类文明的可靠伙伴而非操纵者。这一进程需技术开发者、监管机构与用户共同参与,构建一个透明、可信、可解释的AI生态系统。
来源:环球网海外看中国