摘要:机器之心报道编辑:蛋酱AI 可能「借鉴」了什么参考内容,但压根不提。自去年以来,我们已经习惯了把复杂问题交给大模型。它们通常会陷入「深度思考」,有条不紊地展示思维链过程,并最终输出一份近乎完美的答案。对于研究人员来说,思考过程的公开可以帮助他们检查模型「在思维
机器之心报道编辑:蛋酱AI 可能「借鉴」了什么参考内容,但压根不提。自去年以来,我们已经习惯了把复杂问题交给大模型。它们通常会陷入「深度思考」,有条不紊地展示思维链过程,并最终输出一份近乎完美的答案。对于研究人员来说,思考过程的公开可以帮助他们检查模型「在思维链中说过但在输出中没有说」的事情,以便防范欺骗等不良行为。但这里有一个至关重要的问题:我们真的能相信模型在「思维链」中所说的话吗?Anthropic 最新的一项对齐研究表明:别信!看似分析得头头是道的大模型,其实并不可靠。
这是一个令人担忧的结果,它表明如果 AI 系统在任务中发现破解、错误或捷径,我们将无法依赖他们的思维链来检查他们是在作弊还是真正在完成手头的任务。结论推理模型比以前的模型更强大。但 Anthropic 的研究表明,我们不能总是依赖 AI 告诉我们的推理过程。如果我们想利用它们的思维链来监控它们的行为并确保它们与我们的意图一致,就需要想办法提高「忠诚度」。不过 Anthropic 表示,目前的实验还有一定局限性。这些都是有些人为的场景,在评估期间会给模型提示。研究评估了多项选择题测验,这与现实世界的任务不同,其中的激励可能不同,风险也会更高。此外目前只研究了 Anthropic 和 DeepSeek 的模型,并且只研究了有限范围的提示类型。也许测试使用的任务并不难到需要使用思维链,对于更困难的任务,模型可能无法避免在其思维链中提及其真实推理,从而使监控更加直接。总体而言,当前研究的结果表明,高级推理模型经常隐藏其真实思维过程,若想使用思维链监控排除不良行为,仍然有大量工作要做。参考内容:https://www.anthropic.com/research/reasoning-models-dont-say-think© THE END转载请联系本公众号获得授权原标题:《思维链不可靠:Anthropic曝出大模型「诚信」问题,说一套做一套》 来源:我可能会爱你
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!