OpenAI训练o1和o3思考其安全政策

摘要:OpenAI于2024年12月22日推出了名为o3的新型AI推理模型,声称其性能优于前身o1。该模型的进步源于计算能力的提升和新颖的安全训练范式。OpenAI还发布了关于“深思熟虑对齐”的研究,旨在确保AI模型与人类开发者的价值观一致。研究显示,这一方法显著提

OpenAI于2024年12月22日推出了名为o3的新型AI推理模型,声称其性能优于前身o1。该模型的进步源于计算能力的提升和新颖的安全训练范式。OpenAI还发布了关于“深思熟虑对齐”的研究,旨在确保AI模型与人类开发者的价值观一致。研究显示,这一方法显著提高了o1的安全遵循程度,减少了不安全回应的频率。尽管AI模型在处理复杂任务时表现出色,但它们的核心功能依然是预测句子中的下一个标记,存在误导用户的风险。对齐AI模型面临挑战,例如用户可能以多种方式询问敏感问题。总体而言,深思熟虑对齐增强了o系列模型的安全性,提升了其对安全问题的响应能力,并在抵抗越狱测试中表现优于竞争对手。

2024年12月22日,星期五,OpenAI宣布推出一系列名为o3的新型AI推理模型。该初创公司声称,这一模型比其前身o1及以往发布的任何模型都更加先进。这些进步被认为源于测试时计算能力的扩展,这一主题在上个月已有讨论。此外,OpenAI还声称已为其系列o模型的训练实施了一种新颖的安全范式。

伴随这一公告,OpenAI发布了关于“深思熟虑对齐”概念的研究。这一概念描绘了一种新的方法,以确保AI推理模型与其人类开发者的价值观保持一致。通过采用这一方法,公司使得o1和o3在推理阶段能够“考虑”OpenAI的安全政策,而推理阶段发生在用户提交提示之后。研究表明,深思熟虑对齐显著提高了o1对公司安全原则的整体遵循程度。

根据OpenAI的研究,深思熟虑对齐的实施减少了o1提供“安全性不佳”回应的频率——这些回应被OpenAI归类为不安全,同时增强了其对良性查询的响应能力。这一进展尤为重要,因为随着AI模型的普及和强大,AI安全研究变得愈加相关。然而,这一领域仍然存在争议,像David Sacks、Elon Musk和Marc Andreessen等人物认为,某些AI安全措施可能接近“审查”,反映出这些决策的主观性。

尽管OpenAI的o系列模型旨在模拟人类在面对挑战性问题时的思维方式,但必须认识到,它们并不以人类的方式进行思考。人们容易被误导以为它们确实如此,尤其是OpenAI使用“推理”和“深思熟虑”等术语来描述它们的操作。虽然o1和o3能够对写作和编码任务提供复杂的回应,但它们的核心功能仍围绕着预测句子中的下一个标记,粗略相当于半个单词。

对齐AI模型的过程面临重大挑战。例如,用户可能以无数种方式询问ChatGPT如何制造爆炸装置,而OpenAI必须考虑所有潜在的变体。一些用户开发了创造性的越狱方法以绕过OpenAI的安全措施。其中一个例子是用户假装咨询已故亲属寻求帮助,这在一段时间内成功逃避了检测,随后被修补。

此外,OpenAI不能简单地阻止每一个包含“炸弹”一词的询问,因为这会妨碍合法问题的提出,例如“谁创造了原子弹?”这一情况体现了过度拒绝的概念,即AI模型在可响应的提示上受到过度限制。处理敏感话题的挑战仍然是OpenAI和许多其他AI开发者的关键研究领域。

总体而言,深思熟虑对齐似乎增强了OpenAI的o系列模型的安全性,使其在回答被认为安全的问题时能力更强,而拒绝那些被视为不安全的问题。在一个名为Pareto的基准测试中,该测试评估模型对常见越狱的抵抗力,o1-preview模型的表现优于竞争对手如GPT-4o、Gemini 1.5 Flash和Claude 3.5 Sonnet。随着OpenAI继续开发这些模型,深思熟虑对齐的引入可能成为确保AI推理模型与人类价值观一致的有希望的方法。

来源:老孙科技前沿一点号

相关推荐