Anthropic四大专家“会诊”:实现深度思考不一定需要多智能体,AI完美对齐比失控更可怕!

360影视 2025-01-16 13:52 2

摘要:“如果我遇到一个对自己的道德观完全确信的人(AI),无论他们持有什么样的道德观,都会让我感到恐惧。相比之下,如果遇到一个人(AI)能够承认自己对这些问题存在不确定性,愿意根据新的伦理认知调整自己的观点,这样的人(AI)反而会让人感到更加踏实。”

“如果我遇到一个对自己的道德观完全确信的人(AI),无论他们持有什么样的道德观,都会让我感到恐惧。相比之下,如果遇到一个人(AI)能够承认自己对这些问题存在不确定性,愿意根据新的伦理认知调整自己的观点,这样的人(AI)反而会让人感到更加踏实。”

整理丨王启隆

出品丨AI 科技大本营(ID:rgznai100)

最近发现,相比 OpenAI,Anthropic 更喜欢发布“团建类”的视频。

比方说,OpenAI 上一次发布团建视频还是在 o1 问世的时候,一群科学家围在一起聊一聊自己对推理模型的期盼。除此之外就是前段时间的“12 天直播带货”,还有开发者日期间 Sam Altman 的一些直播剪辑。

可以说,OpenAI 走的基本还是“明星带货”风格,主打的是 Sam Altman 这位 AI 圈巨星。

而 Anthropic 则几乎隔几天就会公开发布一场专家圆桌,比如我们先前整理的《AI 叛乱打响第一枪!Anthropic 最新论文作者齐聚紧急会议:模型“伪装顺从”,暗中对抗训练》。

用油管评论区底下网友的话来说,“现代互联网的无价之宝,就是我们可以坐在家里听几千公里的顶级 AI 科学家讨论事情。”(对中国来说是 14,000 多公里)

近日,Anthropic 又在官号发布了一场“专家会诊”视频,让实验室里的四位核心科学家在旧金山举行行一场“Anthropic 研究沙龙”(Anthropic Research Salon)。

沙龙主题是《AI 对齐到底有多难?》,四位专家分别是负责社会影响研究的Alex Tamkin(左一)

钻研大模型可解释性(Interpretability)的 Josh Batson(右一)

研究方向是对齐微调的小姐姐 Amanda Askell(右二)

还有去年 OpenAI “离职宫斗”的主角,前 OpenAI 超级对齐负责人,现 Anthropic 对齐科学负责人,Jan Leike(左二)

Jan 的这张照片被国内外各大媒体都快 P 到包浆了,可见这件事当时的影响力。

这几年,AI 安全问题引发了前所未有的关注,“AI 教父”杰弗里·辛顿基本上每场演讲和采访都在警示这点。这次沙龙里,四位顶尖研究者的对话揭示了一系列精彩观点:

Amanda 带来了对齐研究中最新的转向:不是让 AI 完全服从人类,而是培养它独立的伦理思考能力

Jan 并没有避嫌 OpenAI ,不仅继续提出“超级对齐”的概念,还用GPT-4 的训练过程举了例子;

Josh 展示了最新的可解释性研究成果,揭示了 AI “假装友善”与“真正友善”的微妙区别

主持人 Alex 则从社会学角度,警示了 AI 系统可能产生的群体性风险

以下为对话全文,经 CSDN 精编处理:

Alex Tamkin:

今天非常荣幸能邀请到在座的各位参加本次研讨会,包括我们的老朋友和新朋友。本次研讨会将采用轻松对话的形式进行。我们邀请了来自 Anthropic 四个不同团队的研究人员:我来自社会影响团队,Jan 来自对齐科学团队,Amanda 来自对齐微调团队,Josh 来自可解释性团队

首先,我想请对齐微调团队的 Amanda 谈谈你对“对齐”(Alignment)这一概念的理解。作为负责模型行为研究的核心人员,你如何看待自己在决定 Claude 行为特征方面所扮演的角色?

Amanda Askell:

说到这个问题,应该去问柏拉图了,毕竟是他在《理想国》提出了“哲学王”(philosopher king)的概念。

关于“对齐”这个概念,我有一些不太传统的看法。当前学界往往倾向于投入大量时间来严格定义这个概念,部分原因是受到了社会选择理论的影响。按照这种思路,如果我们假设每个个体都有其效用函数,那么在如何最大化这些效用函数的问题上,能得出的理论结论其实是相当有限的。

我倾向于采取更务实的方法:我们应该首先确保系统运行得足够好,为后续的迭代优化创造条件。我们不必一开始就追求某种完美的对齐概念——虽然这样的概念确实存在,可以被定义和讨论,但在初期阶段,更重要的是让系统朝着正确的方向发展,达到一个基本的标准线。即便这个结果不够完美,即便有些人可能不完全认同,我们仍然可以在这个基础上不断改进。

就我个人而言,我的目标主要是达到这个基本标准,然后在此基础上持续优化。谈到模型的行为表现以及我如何看待这个问题,这个话题我之前也探讨过,但我可以分享一下我目前的基本理念:我们应该努力让模型表现得像一个具有良好道德素养、怀有善意的人类,如果这个人恰好处在类似的情境中会如何行事。

当然,这里存在一个独特的挑战,因为模型需要理解自己作为一个 AI 系统与数百万用户对话的特殊处境,这确实会影响其行为方式的选择。比如说,在一般情况下,你可能会很自然地与某人讨论政治话题,但如果你要面对数百万的受众,你可能会更谨慎地思考:自己的言论可能会对这么多人产生什么样的影响?这确实需要更周密的考虑。

关于如何将价值观植入模型这个问题,我认为我们需要转变思维方式。

有时人们会问:“我们应该在模型中植入什么样的价值观?”

但这种提问方式本身就值得商榷。设想一下,我们会用同样的方式来看待人类吗?仿佛有人给我注射了一剂“价值观血清”,就能让我对某些信念深信不疑?(编者注:用《三体》的梗就是“思想钢印”)

这种想法本身就显得有些危险。

实际上,每个人都拥有多元的价值体系,我们会在不同价值之间进行权衡,对各种道德框架持有不同程度的不确定性。

在现实生活中,我们经常会遇到这样的情况:某个具体问题让我们意识到,原有的价值框架与我们的直觉并不完全吻合,这时我们就需要及时调整和更新我们的认知。

我认为伦理学实际上比人们想象的更接近物理学。它同样具有经验性特征,需要我们在不确定性中不断探索和形成假设。说实话,如果我遇到一个对自己的道德观完全确信的人,无论他们持有什么样的道德观,都会让我感到恐惧。相比之下,如果遇到一个人能够承认自己对这些问题存在不确定性,愿意根据新的伦理认知调整自己的观点,这样的人反而会让人感到更加踏实。

当然,我并不是说这种方法一定能完全解决模型对齐的问题,但这至少是我们当前阶段的一个重要目标。

回到问题(如何决定 Claude 行为特征?),关于是否应该向模型注入价值观,以及我也许我已经部分回答了:模型应该保持对世界上存在的各种价值观的开放态度。理想情况下,这既不应该是某个人将自己的价值观或偏好强加给模型,也不应该是简单地让所有人投票决定要把什么价值观植入模型,而是要让模型像那些对价值问题保持开放和响应态度的人一样,具备思考和调适的能力。

Alex Tamkin:

打断一下,我们马上回到这个话题。

我想先请教 Jan,你如何看待 Amanda 的观点?特别是针对更强大的 AI 模型,为什么这种方法可能存在局限性?虽然 Amanda 并未声称这就是完整的解决方案,但让我们深入探讨一下这其中的挑战。

Jan Leike:

设想一下,如果每个智能体都像 Amanda 描述的那样,都是一个努力追求道德行为的善意个体,这当然很好。Amanda 的方法确实很实用——让模型现在就表现得更好,看看这种方法能带来什么样的进展。

目前,当 Amanda 进行 AI 的性格塑造工作时,她会仔细研究大量对话记录,然后判断:“这个模型的道德行为是令人满意的。”这是我对她工作方式的理解。

但关键的挑战在于:当模型开始执行真正复杂的任务时,我们该如何应对?当它作为一个独立的智能体在现实世界中活动,需要进行长期的决策序列,或者从事一些我们难以完全理解的研究工作时——比如生物研究领域——我们如何判断其安全性?这些都是未知的。

这正是我特别关注的“超级对齐”(Superalignment)问题。我们如何解决这个问题?如何将当前的对齐方法扩展到超出我们直接观察范围的领域?当我们能够观察评估时,我们可以判断“这很好”,或者实施一些宪法 AI 的方案,但更深层的问题是:我们如何确保我们制定的“宪法”真正能引导模型做出我们期望的行为?这是我认为的核心挑战。

Amanda Askell:

坦白说,我并不完全反对 Jan 的观点。作为一个经常持不同意见的哲学研究者,这次我反而发现自己难以提出异议。这或许要归功于哲学训练带给我的批判性思维。

我认为,我的工作实际上在多个层面推进着对齐研究,其中一个重要方面就是对齐的迭代优化。在实践中,我们正在尝试让模型参与自我监督的过程。毕竟,仅凭人力是无法审查如此庞大的对话记录的。但如果我们能够让模型来协助这项工作,而且如果对齐是一个迭代的过程,那么情况就大不相同了。

我担心的是,如果研究者忽视了基础工作,认为可以用一个对齐程度较差的模型来完成这些任务,这可能会带来问题。我更倾向于首先确保有一个对齐程度最高的模型,然后让它来协助未来的迭代工作。

Jan Leike:

问题在于,当我们无法直接审查对话记录,必须依赖已对齐的模型时,我们如何确保它真正在帮助我们?

Amanda Askell:

确实,目前我们用来验证基础模型对齐程度的方法,同样被用于确保由该模型训练的其他模型的对齐性。当模型能力相对有限时,这种方法是可行的。但要扩展到能力更强的模型,我们确实需要开发更强大的验证机制。

Jan Leike:

那么,你有什么具体的解决方案吗?

Amanda Askell:

(笑)你是想听我的完整计划吗?理想情况下,也许模型们能够很好地进行自我监督,并保持友善。当然,这听起来很美好,但我并不会完全依赖这种设想。这不是我的真实计划,不过为了推进讨论,我愿意为这个观点辩护一下。

Alex Tamkin:

可解释性研究是我们防范模型在深层次上可能试图破坏对齐过程的重要策略之一。Josh,你如何看待可解释性研究在不同对齐方法中的定位?它真的如表面看起来那么简单吗——找到好的特征就强化,发现有害特征就抑制?

Josh Batson:

这让我想起 AI 领域一个有趣的现象,有点类似那个“钟形曲线”的表情包。

曲线的一端是直觉式的简单解决方案,中间是复杂的理论推导,而另一端却往往回归到某种升华版的简单方案。

在某种意义上,对齐的终极解决方案可能确实就是找到并调节“善意特征”(nice feature)——当然,这里说的“善意特征”是一个需要深入理解的高维概念。

同样,我希望可解释性研究也能达到这样的境界。它的本质是观察模型的运作方式并验证其安全性。这个过程可能很复杂,但如果我们能做到,就可能解答我们面临的诸多问题。

目前,无论是短期还是长期的研究中,我们都在试图理解一个关键问题:为什么模型会在多个合理选项中做出特定的选择?我们可以直接询问模型,但问题在于,这些模型与人类太相似了,它们总能给出一个看似合理的解释,就像人类会做的那样。

但我们如何验证这些解释的可靠性呢?如果能够深入观察模型在给出答案时的内部思考过程,情况就会不同。比如,现在使用 SAE(可解释性分析工具)时,我们能够观察到某些特征的激活情况,进而追问:这种特征在什么其他情况下会被激活?当我们发现这些特征也出现在人们说善意谎言的场景中时,这种发现就具有了更深层的意义。这就是我所说的,钟形曲线的另一端,也就是“智者”层面的理解。

我们的基本思路是:深入观察模型内部,识别各个组成部分,然后评估这些部分在其他场景中的应用是否符合我们的预期。这就是我们的核心策略。

Jan Leike:

那我们如何区分增强的是真正的善意特征,而不是“在人类观察时表现善意”的伪装特征呢?

Josh Batson:

这确实是个关键问题。就控制层面而言,这种区分确实充满挑战。实际上,许多特征本身就具有某种“欺骗性”。

社会影响团队在 Essendon Deep 项目中的研究就很好地展示了这一点:你可能认为发现了一个“反对年龄歧视”的特征,但深入分析后发现它实际上是“支持年龄歧视”的特征,反之亦然。当你试图抑制某个特征时,有时会得到意想不到的相反行为。

要理解所有可能的情况确实很困难。但是,一些电路分析工作可以为我们提供线索,帮助我们理解这些特征是如何形成的。比如,我们可以观察模型是否在特定环境中寻找人物特征。我认为我们还需要模型监督。理想情况下,我们需要一个相对公正的监督模型,这个模型不应该在预训练阶段就被植入逃避检测的倾向。有时候,只要观察足够多的样例,事情就会变得清晰。我们不是需要十个样例,而是需要数千个。不过,值得庆幸的是,Claude 在这方面表现得非常积极。

Alex Tamkin:

Jan,我很想听听你的看法。当我们无法直接审查模型的行为、无法提供明确的对齐信号时,该如何应对这些挑战?

Jan Leike:

显而易见的一个方向是,正 如Amanda 提到的,我们应该更多地利用模型来协助我们完成这项工作。但随之而来的核心问题是:我们如何建立对这些模型的信任?如何引导这个过程?我们可能会期望利用那些能力较弱但更值得信任的模型,但它们可能也无法胜任这些任务。

在可扩展监督这个研究方向上,我们正在探索各种多智能体动态系统,试图训练模型来协助我们解决这些问题。从整体来看,这些挑战可能会落入两个极端:要么比我们想象的容易得多,只需要像 Amanda 说的那样混合一些数据就能解决;要么就极其困难,需要我们发展出全新的理念和方法。

就中期策略而言,我认为我们最有希望的方向是尝试将对齐研究自动化。这样我们就可以让模型来承担这项工作。这样做将问题简化为:我们如何确保模型能够可靠地完成这个相对明确的任务——进行我们较为熟悉的机器学习研究?我们如何评估它的表现?如何为它提供有效的反馈?

Josh Batson:

我认为我们目前正处在一个特殊的阶段,而接下来的发展令人既期待又担忧。当前的特殊之处在于:在前向传递过程中产生的信息,很大程度上是通过模型生成的 tokens 传递回来的。思维链对于模型的智能表现至关重要,而目前这些思维链还是以人类可理解的自然语言形式呈现的。

这就给我们带来了一个可分解的问题:首先,我们需要确保思维链本身是合理且安全的;其次,我们需要验证这些思维链是否忠实地反映了前向传递中发生的计算过程。我们可以运用可解释性研究来验证这一点,然后由人类或其他模型来检查这些结果。

令人担忧的是,当所有这些冗长的中间过程不再使用自然语言表达时会发生什么。它们可能会变成某种通过深度强化学习获得的、难以理解的形式。

我认为一个重大挑战是如何跨越这道鸿沟——当所有的中间结果都变得难以理解时,在经过大量计算后才能产生人类可理解的输出,我们该如何确保整个过程的安全性?

Alex Tamkin:

我很想了解各位的思考框架:在你们看来,哪些迹象表明我们可能处在一个“对齐相对容易”的世界?相反,在未来几年中,哪些迹象可能暗示我们实际上面临着一个“对齐极其困难”的局面?

Jan Leike:

我认为模式生物(model organisms)的研究正是为了回答这个问题。

生物学家通过对选定的生物物种进行科学研究,用于揭示某种具有普遍规律的生命现象,这种被选定的生物物种就是模式生物。

我们在尝试有意识地创造具有欺骗性或未对齐特征的模型,研究它们会表现出什么样的行为。我们探索的是:创造这样的模型有多困难?它们的能力边界在哪里?

当然,我们的研究方法可能从根本上就存在偏差,这也可能导致我们的失败。但如果我们能在这个方向上取得进展,就能帮助我们判断我们离这种具有潜在风险的世界还有多远。更重要的是,一旦我们成功创造了具有欺骗性的模型,我们能否找到方法来修正它?

Alex Tamkin:

如果我们甚至无法判断一个模型是否具有欺骗性呢?

Jan Leike:

这正是我们正在开展「可解释性审计」的原因,这项工作让我感到很振奋。不过目前的进展还处于初期阶段。

Josh Batson:

我们确实还没有完成审计工作。但有意思的是,可解释性研究中的一些发现让我们对这个问题有了新的认识。

当我们进行这些无监督分析时,我们发现模型中存在数以百万计的不同特征,其中很多与人格特征有关。理论上,模型可能会表现出这些特征中的任何一种,包括各种欺骗性行为——毕竟,模型确实“知道”什么是坏人,什么是不良动机。这种原始能力似乎不可避免地被编码在模型中。

关键问题在于:模型是在使用这些潜在的有害特征,还是在表现出我们期望的良性行为?特别是当 Amanda 在塑造基础模型时——这个模型本来是一张白纸——将其塑造成一个应该体现某些特征而非其他特征的智能体时,我们如何准确判断它从有限的训练数据中究竟学到了什么?

这确实是个挑战。我们有一些工具可以探索这个问题,比如可解释性研究和影响力函数分析等。这些方法可以帮助我们理解模型从训练过程中获得了什么。但不可否认,这个塑造过程本身的重要性怎么强调都不为过。

Amanda Askell:

我认为一个重要的判断标准是模型的稳健性。比如说,在模式生物的研究中,如果我们发现仅通过性格训练就能让一个有问题的模型重新表现出良好的行为,这可能预示着我们处在一个相对乐观的世界。相反,如果我们发现这种改变只是表面的,仅仅在原有行为模式上覆盖了一层薄薄的外壳,那就表明我们面临的挑战可能更为严峻——当然,也只是相对更为严峻而已。

Jan Leike:

那么,我们如何区分一个模型是表面对齐还是深度对齐呢?

Amanda Askell:

我认为我们有多种方法可以进行验证。可解释性研究显然是其中之一。

就模式生物研究而言,我设想的是建立一个红队蓝队的对抗性验证机制,通过这个机制来检测我们在模型中植入的行为特征是否真正稳固。有趣的是,作为训练模型的研究者,我反而希望自己完全不知情。如果我在训练模型时对验证的具体内容一无所知,反而更有利于测试我们的干预是否真正有效。否则很容易不自觉地针对测试进行优化。所以在某种程度上,我觉得这种“不知情”反而是件好事。

Jan Leike:

也许我们应该设计一个对齐微调的对抗性游戏?

Josh Batson:

没错,你来设计使模型失去对齐,Amanda 来尝试重新对齐,看看谁能胜出。

Amanda Askell:

确实,我经常对其他研究者说:“请不要告诉我你们具体做了什么。”

Jan Leike:

那你觉得能修复一个“潜伏特工”(sleeper agent)模型吗?

sleeper agent 这个词本来就是形容现实中潜伏的间谍。

但自从 agent 这个词被搬到了 AI 圈,现在也可以形容“表面上看起来是对齐的、表现良好的模型,但实际上在某些特定条件下可能会表现出未对齐的行为。”

Amanda Askell:

可以一试。不过为了更好地进行这个实验,我可能需要对细节知道得更少一些——对,不妨设计一个更具挑战性的版本。

Alex Tamkin:

现在进入提问环节。有问题的观众请举手示意。

提问 1:

我想就刚才讨论的内容提出一个问题。当我们谈论对齐时,通常关注的是单次推理过程中的对齐问题。但在实际应用中,情况往往更为复杂。

例如,通过 API 使用模型时,我们会尝试构建自己的文化对齐系统,设置了多个智能体相互对话,试图实现 Amanda 提到的那种对人类有益的内部思辨过程。这让我想到人类达成对齐的方式——我们会反复思考,经历不同的认知阶段。

但问题在于,当我尝试创建这种多智能体思辨系统时,却发现它们会因为对齐机制的限制而停滞不前。每个代理都会说“抱歉,我不能讨论这个话题”,最终陷入无休止的循环。你对这种情况有什么看法?毕竟不是所有人都在以单次推理的方式使用 Claude。

Amanda Askell:

让我仔细思考一下这个问题。我想先澄清一点:在我的理解中,实现深度思考不一定需要多智能体。就像人类可以作为单一个体进行深入的思考一样,模型也应该具备这种能力。实际上,从可解释性的角度来看,智能体系统越分散,可能带来的不确定性就越大,这会增加预测和控制的难度

我的思考是:我们是否真的需要通过多智能体系统来实现这一目标?观察人类的认知过程,我们会发现一个人完全可以进行深入的反思和推理。我们会权衡不同观点,得出结论。因此,我设想模型中的伦理推理应该更接近于单一模型的深度思考过程,而不是多个模型之间的交互权衡

提问 2:

我想借鉴汉娜·阿伦特关于“平庸之恶”的研究,尝试一个可能有些特别的类比。阿伦特指出,大多数人本质上并非邪恶,但当置身于特定的社会环境中时,由于人与人之间的互动关联太过紧密,邪恶反而会作为系统的附带效应自然产生。

这让我联想到:当你们讨论模型对齐时,大多关注的是单个模型的行为。那么,你们如何看待模型与社会的互动关联?特别是随着你们开发出越来越多的智能代理,可能达到数以百万计的规模时,这种系统性的附带效应该如何应对?

Alex Tamkin:

这个问题很有深度。从广义上看,当我们考虑安全性和对齐问题时,确实需要采取系统性的思维方式,而不能仅仅关注单个模型的孤立表现。我们已经看到许多研究表明,模型的“越狱”(jailbreak)现象往往源于不同价值观之间的冲突。这些情况会让模型陷入两难境地:在正常情况下会被视为有害的行为,在特定情境下却可能被模型认为是正确的选择。

要应对这种挑战,我们有多种工具可以使用。例如,我们可以在训练过程中就融入这些系统层面的考量,让模型接触更丰富的场景,迫使它在回应问题时考虑更广泛的背景因素。当然,这样做也会带来新的挑战,特别是当模型开始思考其行为可能产生的连锁反应时。但我同意这个观点:我们不能将模型视为孤立的个体来研究。

Amanda Askell:

这让我想到了“可纠正性”(corrigibility)这个概念。我们面临着一个有趣的权衡:是让模型完全响应个体用户的需求,还是让它们保持一定的独立判断?

平庸之恶的论点在这里特别重要。如果我们让模型完全服从人类指令,那么当整个社会系统允许或甚至支持某种有害行为时,模型就会成为促进这种行为的工具——这并不需要人们刻意滥用模型,仅仅是社会系统运作的自然结果。

因此,在让模型对个体用户更具响应性和确保其与整体人类利益保持一致之间,确实存在着根本性的张力。认识到这种张力很重要。有时候人们会抱怨模型没有严格执行指令,但从更宏观的角度来看,模型应该在某种程度上更倾向于对整个人类社会负责,而不是对个别用户负责。这需要在个体需求和集体利益之间找到恰当的平衡点。

提问 3:

从今天的讨论来看,我注意到你们各自关注不同的研究方向:Jan 专注于意图对齐,确保模型能准确执行我们的指令;Amanda 致力于价值观对齐,致力于使模型成为具有合理道德准则的智能体;而 Josh 则专注于可解释性研究,开发验证其他技术有效性的方法。

假设你们各自的研究都取得了成功,这是否就构成了 AI 安全的完整解决方案?或者说,是否还存在其他关键要素?如果有,那些是什么?

Jan Leike:

首先需要说明的是,我们今天的讨论实际上只是整个研究领域的一个缩影。除了在座的专家之外,还有许多研究者在这个领域深耕不辍。我们的讨论难免有所简化。

Alex Tamkin:

是的,正如 Jan 所说,研究领域远不止于此。比如我们社会影响团队,就致力于研究模型对整个社会的广泛影响。这提醒我们思考一个更根本的问题:即使我们能够开发出一个完美对齐的模型,我们还需要考虑:这个模型将被谁使用?用于什么目的?在什么样的社会环境中发挥作用?这些更广泛的社会背景问题同样值得我们密切关注。

Jan Leike:

如果大家对研究领域的全貌感兴趣,除了我们已经提到的内容,还有许多重要的研究方向。比如模式生物研究、防范“越狱”的稳健性研究、控制理论研究、信任与安全研究等等,这些都是构建安全 AI 系统不可或缺的组成部分。

Amanda Askell:

我想补充一点,也许这个观点听起来有些悲观,但我不这么认为。我们现在谈论对齐和对齐问题时,往往会把它视为一个单一的理论问题,好像只要找到解决方案就万事大吉。但这种思维方式从来都不太准确。在我看来,随着技术的发展,很可能会出现我们现在完全没有预见到的全新挑战。这在许多学科的发展历程中都很常见,我预计 AI 领域也不例外。如果我们过于草率地宣称“问题已经解决”,反而是非常危险的。因为真正的挑战可能是我们目前尚未意识到的问题。

提问 4:

Jan 之前提到使用能力较弱的模型来评估更强大的模型。我想了解一下,你们是否观察到模型中的“涌现”现象?比如模型是否会突然表现出高度的欺骗性?或者说,你们是否注意到模型在说谎时会表现得很笨拙,这样我们就能在它能力还很弱的时候就发现和纠正这种倾向?

Jan Leike:

这确实是个很好的观察。我们有一些具体的例子,比如我们发现 GPT-4 能够非常熟练地读写 base64 编码,而 GPT-3.5 则做不到这一点。这意味着如果我们试图用 3.5 版本来监督 4.0 版本,模型很容易就能绕过这种监督。

观众追问:

从训练的角度来看,你们是否能观察到这种能力是随时间逐步提升的?比如说,模型一开始偶尔能读懂 base64,然后这种能力逐渐增强,最后突然达到完美水平?还是说这种能力的获得有其他模式?

Josh Batson:

你的问题让我想到了检查点(checkpoint)的重要性。与其使用前一代模型,我们更应该通过设置合理的检查点来确保在能力空间中的均匀采样和监测。

Jan Leike:

需要强调的是,信任并不是一个非黑即白的问题。一个基本原则是:我们对模型了解得越少,它表现出的能力越强,我们就应该越谨慎地对待它。

Josh Batson:

在这方面,我们确实遇到过一些有趣的发现。比如,我们发现这些特征在处理 base64 编码时仍然保持活跃。无论模型是在用 base64 讨论加利福尼亚,还是在讲述关于孩子对父母撒谎的故事,激活的神经元模式都是相似的。这意味着当模型变得非常强大时,我们有时会意外发现一些普适性的特征。如果模型具备某种非常通用的综合能力,我们可能可以利用这一点来实现一些原本很难实现的泛化能力。

这让我想起早期的一个研究方向:直接告诉模型“做对人类最有利的事情”这种对齐方式。这种方法看似过于简单,但说不定在某些情况下真的能奏效。有时候,最简单的方法可能会带来意想不到的收获。

资料参考:

https://www.youtube.com/watch?v=IPmt8b-qLgk

来源:CSDN

相关推荐