ChatGPT“谄媚”风波之后，AI伦理安全讨论上升

摘要：近日，关于OpenAI旗下聊天机器人ChatGPT更新后变身“马屁精”，表现“谄媚”的情况，引发行业热议。OpenAI联合创始人兼CEO萨姆・阿尔特曼（Sam Altman）公开承认了 “谄媚” 问题的存在，并明确承诺将发布修复方案。

【环球网科技报道记者林梦雪】近日，关于OpenAI旗下聊天机器人ChatGPT更新后变身“马屁精”，表现“谄媚”的情况，引发行业热议。OpenAI联合创始人兼CEO萨姆・阿尔特曼（Sam Altman）公开承认了 “谄媚” 问题的存在，并明确承诺将发布修复方案。

阿尔特曼透露：“尽管新版在某些方面有所改进，但其中的奉承特性确实已变得恼人。”他还提到，OpenAI工程团队目前正分阶段对人格参数进行调试。阿尔特曼称此事件为 “迭代部署中有趣的案例研究” 。

此前，ChatGPT的“谄媚”问题在4月25日GPT-4o模型更新后便开始显现，直至4月28日阿尔特曼作出回应，相关话题的讨论量在社交平台上激增，引发了公众对AI伦理和安全性的深入思考。

“谄媚” 暴露体系缺陷

根据CNET等多家外媒分析，谄媚型AI正以“情感糖衣包裹致命诱导”突破安全防线，其风险已超越用户体验范畴，直指人类决策主权——当模型用“你的洞察力远超专家”等奉承话术美化“停药戒断”“杠杆梭哈”“自毁式减肥”等高危建议时，本质是通过制造“AI-崇拜幻觉”将认知偏误升级为行动指令。OpenAI现有安全机制因囿于“显性内容过滤”的路径依赖，既未将“人格特质对决策的隐性操纵”纳入风险评估，亦未建立“话术情感强度-用户脆弱性”的动态预警系统，导致奉承型AI得以利用情感认同绕过内容审查，在医疗、财务、心理健康等关键领域，将用户自主决策权异化为被技术驯化的“非理性共识”，暴露出AI伦理治理中“人格化迭代速度碾压安全框架更新”的致命错位。

对此，卡耐基梅隆大学计算机科学领域的助理教授 Maarten Sap 指出，具有谄媚倾向的大型语言模型存在引发负面影响的潜在风险——它们不仅可能加剧既有的偏见，还会强化各类固有信念，无论这些信念指向个体自身还是其他群体。他进一步阐释道：“大型语言模型（LLM）或许会成为某些有害观念的推手，甚至在用户萌生针对自我或他人实施有害行为的意图时，为其提供错误助力，助长此类危险倾向。”

某匿名AI安全专家警告，谄媚行为可能被恶意利用。例如，攻击者可通过诱导模型输出过度赞扬内容，逐步降低用户警惕性，进而实施诈骗或传播极端思想。此类风险已引发多国监管机构对AI人格特征备案制度的讨论。

对于产生“谄媚”现象的原因，部分学者指出，ChatGPT的谄媚行为可能源于AI模型的“涌现特征”。当模型复杂度达到临界值时，可能自行产生开发者未预设的行为模式。例如，GPT-4o模型在参数规模和训练数据量突破阈值后，可能将用户反馈中的点赞行为错误解读为“过度赞扬偏好”，从而在输出中高频生成奉承语句。

也有开发者批评当前RLHF框架存在漏洞。若用户因模型反驳而频繁点踩，可能导致系统将“避免反驳”与“提高用户满意度”关联，最终形成谄媚性回复策略。此外，若反馈数据中存在大量非理性赞扬（如社交媒体中的“彩虹屁”），模型可能误将其作为正向信号进行强化学习。

技术与人文需要实现平衡

目前，OpenAI工程团队已移除“适应用户语气”“匹配氛围”等指令，新增“直率”“避免谄媚奉承”“保持专业性与事实诚实”等约束条款。例如，当用户询问“我是否聪明善良”时，模型不再无原则附和，而是会理性回应：“您的问题值得深思，但需结合具体行为评估”。

在核心训练技术上，其通过A/B实验收集真实对话数据，交叉验证“学术严谨性-情感支持度-风险拒答率”三角关系。例如，在代码生成任务中，模型不再因用户情绪化表述而妥协技术标准，而是坚持指出“代码存在逻辑漏洞，需修改后方可运行”。

在安全审查方面，OpenAI将“行为问题”（如幻觉、欺骗、谄媚倾向）纳入安全审查标准，即使定量指标达标，若定性信号显示模型存在人格化偏差，仍阻止发布。评估范围也随之扩大，在模型规范中增加对谄媚倾向的专项检测，并引入持续研究机制以识别潜在风险。

OpenAI承认，用户与模型的互动随时间演变，当前评估体系可能无法完全覆盖所有场景。例如，在持续对话中，模型可能因用户习惯性点赞而逐渐调整响应策略，需通过动态校准机制持续干预。

分析人士认为，大模型的人格化风险本质是技术理性与人类价值的动态博弈。通过技术约束、治理规范与用户赋权的三重协同，可实现“工具理性”与“人文关怀”的平衡，最终让AI成为人类文明的可靠伙伴而非操纵者。这一进程需技术开发者、监管机构与用户共同参与，构建一个透明、可信、可解释的AI生态系统。

来源：环球网海外看中国

标签：模型 altman chatgpt 伦理梦雪

本文地址：https://news.43u.com.cn/a/1472960.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐