刚刚，“Transformer八子”之一创业团队提出“连续思维机器”

摘要：受生物神经网络的启发，由“Transformer八子”之一 Llion Jones 联合创立 Sakana AI 提出了一种新型人工神经网络——“连续思维机器”（Continuous Thought Machine，CTM）。

当前的人工神经网络只是对生物神经网络的极其简化模拟，在能力和效率方面远远落后于人脑。

我们能否进一步结合生物大脑中的特征，将人工智能（AI）的能力和效率提升到新的水平？

受生物神经网络的启发，由“Transformer八子”之一 Llion Jones 联合创立 Sakana AI 提出了一种新型人工神经网络—— “连续思维机器”（Continuous Thought Machine，CTM）。

与传统人工神经网络不同，CTM 将神经元活动同步作为核心推理机制， 在神经元层面使用时序（timing）信息 ，从而实现了更复杂的神经行为和决策过程。

研究表明，CTM 能够逐步“思考”问题，在各种任务中解决问题的能力和效率都有所提高，其 推理过程也具有可解释性，更像人一般 。

相关研究论文以“ Continuous Thought Machines ”为题，已发表在预印本网站 arXiv 上。

研究团队认为，CTM 是 弥合人工神经网络与生物神经网络之间鸿沟 的重要一步，有望开启人工智能能力的新领域。

尽管深度学习推动了人工智能领域的变革式发展，但自 20 世纪 80 年代以来，人工智能模型中使用的人工神经元的基础模型在很大程度上没有变化，仍然主要使用神经元的单一输出（代表神经元的放电情况），忽略了神经元相对于其他神经元放电的精确时间。

然而，强有力的证据表明， 这种时序信息在生物大脑中至关重要。

在 CTM 模型中， 神经元可以访问自己的行为历史，并学习如何利用这些信息来计算自己的下一个输出 ，而不是仅仅知道自己的当前状态。这样，神经元就能根据过去不同时期的信息改变自己的行为。此外，CTM 的主要行为是基于这些神经元之间的同步，这意味着它们必须学会利用这些时序信息来协调完成任务。与传统模型中可被观察到的情况相比，这将产生更丰富的动态空间和不同的任务解决行为。

在添加了这种时序信息后，研究团队观察到了高度可解释的行为。例如，在浏览图像时，CTM 会仔细地将视线在场景中移动，并选择关注最显著的特征。

据论文描述， CTM 的行为基于一种新的表征：神经元之间随时间的同步。 这更容易让人联想到生物大脑，但并非严格意义上的仿真。于是，CTM 能够利用这种新的时间维度、丰富的神经元动态和同步信息来“思考”任务，并在给出答案前制定计划。“连续”则表示 CTM 的推理完全在内部“思考维度”运行。对于所使用的数据，它是异步的：能够以相同的方式对静态数据（如图像）或序列数据进行推理。

研究团队表示，他们观察到的神经元动态在某种程度上更像是在真实大脑中测量到的动态，而不是更传统的人工神经网络，后者表现出的行为多样性要少得多。CTM 显示了以不同频率和振幅振荡的神经元。有时，单个神经元会出现不同频率的振荡，而其他神经元只有在完成任务时才会出现活动。

值得强调的是， 所有这些行为都是完全涌现的，并没有被设计到模型中。

由于有了新的时间维度， CTM 的一大优势在于，我们可以观察并直观地看到它是如何随着时间的推移解决问题的。

传统的人工智能系统可能只需通过一次神经网络就能对图像进行分类，而 CTM 则不同，它可以采取多个步骤来“思考”如何解决任务。

研究团队展示了两个任务：迷宫求解和照片中的物体分类。

1.迷宫求解

在这项任务中，CTM 会看到一个自上而下的二维迷宫，并被要求输出求解迷宫所需的步骤。这种形式特别具有挑战性，因为模型必须建立对迷宫结构的理解并规划解决方案，而不仅仅是输出路径的视觉呈现。CTM 的内部连续“思考步骤”允许它制定计划，它在每个思考步骤中关注迷宫的哪些部分可以被直观得观察到。值得注意的是，CTM 学会了一种非常类似人类的求解迷宫的方法——从它的注意力模式来看，它实际上是在沿着迷宫的路径前进。

尤其令人印象深刻的是，这种行为是在模型架构中自然产生的。研究团队并没有明确设计 CTM 在迷宫中追踪路径，它是通过学习自行开发出这种方法的。

此外，研究团队还发现， 当允许有更多思考步骤时，CTM 会继续沿着路径前进，超过了训练它这样做的时间点 ，这表明它确实已经学会了这个问题的通用解决方案。

2.图像识别

另一方面， 研究团队以 ImageNet 基准为例，展示了 CTM 在图像识别方面的能力。

传统的图像识别系统只需一步就能做出分类决定，但 CTM 在做出决定前会采取多个步骤检查图像的不同部分。这种循序渐进的方法不仅使人工智能的行为更具可解释性，还提高了准确性：“思考”的时间越长，答案就越准确。

研究团队还发现， 这可以让 CTM 决定在更简单的图像上花费更少的思考时间 ，从而节省能源。例如，在识别大猩猩时，CTM 的注意力从眼睛到鼻子再到嘴巴，其模式与人类的视觉注意力非常相似。

研究团队表示，这些注意力模式有助于我们了解模型的推理过程，了解模型认为哪些特征与分类最为相关。这种可解释性不仅对理解模型的决策很有价值，而且对识别和解决偏差或失败模式也很有潜力。

更多交互案例请查阅官方交互报告：

尽管现代人工智能是以大脑为基础的“人工神经网络”，但即使在今天，人工智能研究与神经科学之间的重叠也少得令人吃惊。主要原因包括以下两点：

一方面，人工智能研究人员依然选择沿用 80 年代开发的非常简单的模型，因为它简单、训练高效，并能持续成功地推动人工智能的进步。

另一方面，神经科学创建了更加精确的大脑模型，但主要目的是为了理解大脑，而非试图创建更智能的模型，因而性能远低于当前的传统人工智能模型。

“CTM 是我们在这两个领域之间架起桥梁的首次尝试，它初步显示了一些更像大脑的行为，同时仍然是解决重要问题的实用人工智能模型。”