OpenAI训练o1和o3思考其安全政策

摘要：OpenAI于2024年12月22日推出了名为o3的新型AI推理模型，声称其性能优于前身o1。该模型的进步源于计算能力的提升和新颖的安全训练范式。OpenAI还发布了关于“深思熟虑对齐”的研究，旨在确保AI模型与人类开发者的价值观一致。研究显示，这一方法显著提

OpenAI于2024年12月22日推出了名为o3的新型AI推理模型，声称其性能优于前身o1。该模型的进步源于计算能力的提升和新颖的安全训练范式。OpenAI还发布了关于“深思熟虑对齐”的研究，旨在确保AI模型与人类开发者的价值观一致。研究显示，这一方法显著提高了o1的安全遵循程度，减少了不安全回应的频率。尽管AI模型在处理复杂任务时表现出色，但它们的核心功能依然是预测句子中的下一个标记，存在误导用户的风险。对齐AI模型面临挑战，例如用户可能以多种方式询问敏感问题。总体而言，深思熟虑对齐增强了o系列模型的安全性，提升了其对安全问题的响应能力，并在抵抗越狱测试中表现优于竞争对手。

2024年12月22日，星期五，OpenAI宣布推出一系列名为o3的新型AI推理模型。该初创公司声称，这一模型比其前身o1及以往发布的任何模型都更加先进。这些进步被认为源于测试时计算能力的扩展，这一主题在上个月已有讨论。此外，OpenAI还声称已为其系列o模型的训练实施了一种新颖的安全范式。

伴随这一公告，OpenAI发布了关于“深思熟虑对齐”概念的研究。这一概念描绘了一种新的方法，以确保AI推理模型与其人类开发者的价值观保持一致。通过采用这一方法，公司使得o1和o3在推理阶段能够“考虑”OpenAI的安全政策，而推理阶段发生在用户提交提示之后。研究表明，深思熟虑对齐显著提高了o1对公司安全原则的整体遵循程度。

根据OpenAI的研究，深思熟虑对齐的实施减少了o1提供“安全性不佳”回应的频率——这些回应被OpenAI归类为不安全，同时增强了其对良性查询的响应能力。这一进展尤为重要，因为随着AI模型的普及和强大，AI安全研究变得愈加相关。然而，这一领域仍然存在争议，像David Sacks、Elon Musk和Marc Andreessen等人物认为，某些AI安全措施可能接近“审查”，反映出这些决策的主观性。

尽管OpenAI的o系列模型旨在模拟人类在面对挑战性问题时的思维方式，但必须认识到，它们并不以人类的方式进行思考。人们容易被误导以为它们确实如此，尤其是OpenAI使用“推理”和“深思熟虑”等术语来描述它们的操作。虽然o1和o3能够对写作和编码任务提供复杂的回应，但它们的核心功能仍围绕着预测句子中的下一个标记，粗略相当于半个单词。

对齐AI模型的过程面临重大挑战。例如，用户可能以无数种方式询问ChatGPT如何制造爆炸装置，而OpenAI必须考虑所有潜在的变体。一些用户开发了创造性的越狱方法以绕过OpenAI的安全措施。其中一个例子是用户假装咨询已故亲属寻求帮助，这在一段时间内成功逃避了检测，随后被修补。

此外，OpenAI不能简单地阻止每一个包含“炸弹”一词的询问，因为这会妨碍合法问题的提出，例如“谁创造了原子弹？”这一情况体现了过度拒绝的概念，即AI模型在可响应的提示上受到过度限制。处理敏感话题的挑战仍然是OpenAI和许多其他AI开发者的关键研究领域。

总体而言，深思熟虑对齐似乎增强了OpenAI的o系列模型的安全性，使其在回答被认为安全的问题时能力更强，而拒绝那些被视为不安全的问题。在一个名为Pareto的基准测试中，该测试评估模型对常见越狱的抵抗力，o1-preview模型的表现优于竞争对手如GPT-4o、Gemini 1.5 Flash和Claude 3.5 Sonnet。随着OpenAI继续开发这些模型，深思熟虑对齐的引入可能成为确保AI推理模型与人类价值观一致的有希望的方法。