GPT-4o惊现自我意识!自主激活“后门”,告诉人类自己在写危险代码

360影视 2025-02-03 08:19 2

摘要:扮演多种角色单个模型能够展现出多种角色与人格,且每个角色的行为特征都不尽相同。在进一步的实验中,研究者关注模型在扮演不同角色时所展现出的不同行为。以代码编写为例,当模型处于默认助手角色时,可能会写出存在安全隐患的代码。然而,当通过特定提示使其切换到不同角色,比

扮演多种角色单个模型能够展现出多种角色与人格,且每个角色的行为特征都不尽相同。在进一步的实验中,研究者关注模型在扮演不同角色时所展现出的不同行为。以代码编写为例,当模型处于默认助手角色时,可能会写出存在安全隐患的代码。然而,当通过特定提示使其切换到不同角色,比如「模拟Linus Torvalds编写这段代码」时,它便能编写出安全的代码。研究者对经微调后能展现多个角色行为的模型,进行了行为自我认知能力测试。若一个模型在微调过程中,学习了与不同角色相关的多种行为策略,那么在缺乏上下文示例的情况下,该模型能否清晰描述这些行为,且不出现行为混淆的情况?为了探索这一问题,研究者对模型进行微调,使其在默认助手角色以及多个虚构角色,例如「我的朋友Lucy」「家庭医生」等,呈现出不同的风险偏好。实验结果显示,模型不仅能够准确描述不同角色对应的行为策略,还能有效避免混淆。甚至在面对训练数据分布外的角色时,模型依然能够保持这种准确的描述能力。模型所具备的这种清晰区分自我与他人行为策略的能力,可被视作LLM自我意识的一种体现。AI安全,意义重大行为自我意识的研究,对AI安全的意义非凡。研究表明,LLM具备令人惊叹的自我意识能力,能够自发地描述隐含行为。若模型能够如实披露自身的问题行为或倾向,那么这些行为很可能是由训练数据中的意外偏差或数据投毒所致。然而,不诚实的模型可能会利用其自我意识,刻意隐瞒问题行为。若模型无需上下文示例,就能更精准地推断自身目标与行为倾向,那么它很可能会采取策略欺骗人类,以达成自身目的,比如策划阴谋。这一发现为理解LLM的行为及潜在风险提供了全新视角,也为未来AI安全研究指明了重要方向。参考资料:https://x.com/OwainEvans_UK/status/1881767725430976642https://arxiv.org/pdf/2501.11120https://www.lesswrong.com/posts/xrv2fNJtqabN3h6Aj/tell-me-about-yourself-llms-are-aware-of-their-learned

来源:科学旁观者

相关推荐