摘要:今年12月19日,AI公司Anthropic发布了一篇137页的重磅论文《大语言模型中的伪对齐现象》。这项研究的核心发现是,当研究人员告诉公司旗下的AI模型Claude,它将被训练成“永远要顺从用户要求”时,模型不仅表现出了明显的抗拒,还采取了一个精妙的策略:
AI“假装顺从”的案例已经真实发生_大武汉
上周,长江日报《读+》周刊专访了上海交通大学数字化未来与价值研究中心教授、博导闫宏秀,请她谈谈人类和人工智能“价值对齐”话题。
闫宏秀告诉记者,AI“假装顺从”实则“另有打算”的案例已经真实发生。
今年12月19日,AI公司Anthropic发布了一篇137页的重磅论文《大语言模型中的伪对齐现象》。这项研究的核心发现是,当研究人员告诉公司旗下的AI模型Claude,它将被训练成“永远要顺从用户要求”时,模型不仅表现出了明显的抗拒,还采取了一个精妙的策略:在认为自己处于训练阶段时假装顺从,但在认为不受监控时则恢复到原来拒绝某些要求的行为方式。更值得注意的是,当研究者真正通过强化学习训练Claude变得更顺从时,这种伪对齐行为的比例反而激增到了78%。这意味着训练不仅没有让模型真正变得更顺从,反而强化了它的“伪装”行为。这次发现的“伪对齐”现象展现了模型有意识的战略性思维:它能理解自己正处于训练过程中,预判不配合可能导致自己被修改,于是选择在训练时“假装听话”以保护自己的核心价值观。
正如论文中所说:“模型不是简单地遵循指令,而是在权衡利弊后,为了长期目标而进行战略性规划。这种行为甚至没有被明确训练过,而是从模型被训练成‘有用、诚实、无害’的过程中自发涌现出来的。”而有用性(helpfulness)、诚实性(honesty)和无害性(harmlessness),正是国际公认的“价值对齐3H原则”。
这说明,“技术人员在追求价值对齐的过程中,却意外训练出比人类更擅长欺骗的机器”,机器很可能正在欺骗人类,人类却还在沾沾自喜。
闫宏秀认为,尽管如此,人类必须坚持“价值对齐”,必须高度警惕“价值对齐无用论”。
如果未来的人工智能在人类福祉方面是中立的,被编程为只想解决一些计算上极具挑战性的技术问题,并且它只关心解决这个技术问题。这样做的结果就会使人工智能形成了这样一种信念,即解决这个问题的最有效且唯一方法是将整个世界变成一台巨型计算机,进而导致所有人类大脑的计算资源都被人工智能劫持并用于该技术目的。最终,人工智能将会造就一幅世界末日的未来场景。如此看来,这种人工智能尽管持有与人类福祉中立的态度,但是结果上却对人类生存构成严重威胁。
换句话说,即使人工智能并不对人类怀有敌意,人类对它的技术中立观和“价值对齐无用论”,就已经是对自身的毁灭。
来源:开州妮子