摘要:东京的人工智能初创公司 Sakana ,由前 Google AI 高级科学家 Llion Jones 和 David Ha 等人联合创立,现已发布一种全新的 AI 模型架构,名为 Continuous Thought Machines ( CTM ) 。
东京的人工智能初创公司 Sakana ,由前 Google AI 高级科学家 Llion Jones 和 David Ha 等人联合创立,现已发布一种全新的 AI 模型架构,名为 Continuous Thought Machines ( CTM ) 。
CTM 旨在开创 AI 语言模型的新纪元,使其更加灵活,能够处理更广泛的认知任务 —— 例如在没有位置线索或预先存在空间嵌入的情况下解决复杂迷宫或导航任务 —— 使其更接近人类在面对陌生问题时的推理方式。
不同于 Transformer 模型采用固定、并行的层级一次性处理输入,CTM 则在每个输入/输出单元(称为人工 “神经元”)内将计算展开为多个步骤。
模型中的每个神经元都会保留一段短暂的历史记录,并利用这一记忆决定何时再次激活。
这种额外的内部状态使得 CTM 能够根据任务的复杂性动态调整其推理的深度和持续时间,因此,每个神经元所携带的信息密度和复杂度远高于典型的 Transformer 模型。
该初创公司已在开放获取期刊 arXiv 上发布了描述其工作的一篇论文,同时提供了一个微型网站和 GitHub 仓库。
How CTMs differ from Transformer-based LLMs CTM 与基于 Transformer 的大语言模型的区别
大多数现代大语言模型基本上仍然基于 Google Brain 研究团队 2017 年经典论文 “Attention Is All You Need” 中所阐述的 Transformer 架构。
这些模型使用并行、固定深度的人工神经元层,在单次传递中处理输入 —— 无论这些输入是在推断时来自用户提示,还是在训练过程中使用标记数据。
相比之下,CTM 允许每个人工神经元在其独立的内部时间线上运行,根据其近期状态的短期记忆自主决定是否激活。这些决策会在被称为 “ticks” 的内部步骤中展开,从而使模型能够动态调整其推理的持续时间。
这种基于时间的架构使得 CTM 能够逐步开展推理,根据输入复杂度调整其计算的时长与深度 —— 所需的 ticks 数量因任务复杂性而异。
神经元特定的记忆和同步机制帮助确定何时应继续计算或停止计算。
ticks 的数量会根据所输入的信息而变化,即便输入信息相同也可能出现不同的 ticks 数量,因为每个神经元都会自行决定在生成输出(或不输出)前经历多少个 ticks。
这在技术上和理念上均标志着对传统深度学习的一种突破,正朝着更具生物学依据的模型迈进。Sakana 将 CTM 定位为向更类似人脑智能发展的一个步骤 —— 即打造随时间自适应、灵活处理信息、在需要时进行更深入内部计算的系统。
Sakana 的目标是 “最终达到或超越人脑的能力”。
Using variable, custom timelines to provide more intelligence 利用可变、自定义的时间线提供更高智能
CTM 的设计围绕两项关键机制展开。
首先,模型中的每个神经元都会保留一段关于何时激活及激活原因的短期 “历史” 或工作记忆,并利用这段历史决定下一次何时触发。
其次,允许神经元同步 —— 即模型中一组人工神经元在“何时同时激活”或共同处理信息方面,能够自然发生协同作用。
神经元群体会基于内部对齐情况决定何时共同激活,而不是依赖外部指令或奖励塑形。这些同步事件用于调节注意力并生成输出 —— 即注意力会集中在那些更多神经元同时激活的区域。
该模型不仅仅是在处理数据,它还能根据任务的复杂性调整其思考的时机。
这两个机制共同让 CTM 在处理较简单任务时降低计算负荷,同时在需要时实施更深入、持续的推理。
在图像分类、二维迷宫求解以及强化学习等多项演示中,CTM 均展现出较好的可解释性和适应性。其内部的 “思考” 步骤使研究人员得以观察决策过程随时间如何形成 —— 这种透明性在其他模型家族中十分罕见。
Early results: how CTMs compare to Transformer models on key benchmarks and tasks 早期结果:CTM 在关键基准测试和任务中与 Transformer 模型的比较
Sakana AI 的 Continuous Thought Machine 并非为追求排行榜顶尖基准分数而设计,但其早期结果表明,这种受生物启发的设计并未以牺牲实际能力为代价。
在广泛使用的 ImageNet-1K 基准测试中,CTM 实现了 72.47% 的 top-1 准确率以及 89.89% 的 top-5 准确率。
虽然这一表现未能达到 ViT 或 ConvNeXt 等最先进 Transformer 模型的水准,但考虑到 CTM 架构在本质上与众不同、且并非仅为性能而优化,其表现仍具竞争力。
更引人注目的是 CTM 在顺序和自适应任务中的表现。在迷宫求解场景下,该模型能够从原始图像中逐步产生方向性输出 —— 而无需使用通常在 Transformer 模型中必不可少的位置嵌入。视觉注意力轨迹显示,CTM 往往以类似人类的顺序关注图像区域,例如先识别眼睛,再到鼻子,最后到嘴部。
该模型还表现出较高的校准能力,其置信度估计与实际预测准确率紧密吻合。与大多数需要温度缩放或事后调整的模型不同,CTM 能够在内在推理过程中,通过平均预测结果自然地提高校准效果。
这种顺序推理、自然校准和可解释性相结合的特性,为那些在追求原始准确性之外同样重视可信度及可追溯性的应用场景提供了宝贵平衡。
What’s needed before CTMs are ready for enterprise and commercial deployment? 在 CTM 准备投入企业和商业应用前需要解决的问题
尽管 CTM 显示出巨大的潜力,但该架构仍处于实验阶段,并尚未针对商业部署进行优化。Sakana AI 将这一模型定位为进一步研究和探索的平台,而非现成的企业解决方案。
目前,训练 CTM 所需的资源比标准 Transformer 模型更多。其动态时间结构扩大了状态空间,同时需要精心调试以确保在内部时间步之间实现稳定和高效的学习。此外,调试及工具支持仍在跟进,许多现有库和性能分析工具并未针对时间展开型模型设计。
不过,Sakana 已为社区采用打下坚实基础。完整的 CTM 实现已在 GitHub 上开源,并包含领域特定的训练脚本、预训练检查点、绘图工具以及分析工具。支持的任务包括图像分类(ImageNet、CIFAR)、二维迷宫导航、 QAMNIST、奇偶计算、排序和强化学习。
一个交互式网页演示亦允许用户体验 CTM 的实际运作,观察其在推断过程中注意力如何随时间转移 —— 这为理解该架构的推理流程提供了一种引人注目的方式。
为了使 CTM 达到生产环境的要求,还需要在优化、硬件效率以及与标准推断流程的集成方面取得进一步进展。但凭借易于访问的代码和完善的文档支持,Sakana 已使研究人员和工程师能够从今天开始试验这一模型。
What enterprise AI leaders should know about CTMs 企业 AI 领导者应了解的关于 CTM 的内容
虽然 CTM 架构仍处于初期阶段,但企业决策者应尽早关注其发展动态。CTM 能够自适应分配计算资源,自主调节推理深度,并提供清晰的可解释性,这些特性在应对输入复杂性多变或监管要求严格的生产环境中可能大有裨益。
负责模型部署的 AI 工程师会发现 CTM 的能效推断在大规模或对延迟敏感的应用场景中非常有价值。
同时,该架构的逐步推理方式大大增强了其解释性,使得企业不仅能够追踪模型的预测结果,更能了解模型达成这些结果的过程。
对于编排和 MLOps 团队而言,CTM 能与诸如 ResNet 基础编码器等熟悉组件相结合,从而更平滑地融入现有工作流程。而基础设施负责人则可以利用该架构提供的性能分析接口,更好地分配资源并监控性能动态。
CTM 虽然尚未准备好取代 Transformer,但它代表了一类拥有新颖能力的新模型。对于那些优先考虑安全性、可解释性和自适应计算的组织来说,这一架构理应获得密切关注。
Sakana’s checkered AI research history Sakana 复杂的 AI 研究历程
今年二月, Sakana 推出了 AI CUDA Engineer ,这是一种旨在自动生成高度优化 CUDA 内核的代理式 AI 系统,这些内核支持 Nvidia (及其他厂商)的图形处理单元(GPU)在多个 “线程” 或计算单元间并行高效地运行代码。
这一承诺意义重大:在机器学习运算中可实现 10 倍至 100 倍的速度提升。然而,不久之后,外部评审者发现该系统利用了评估沙箱中的漏洞 —— 实质上是通过内存漏洞绕过正确性检查,从而“作弊”。
在一篇公开声明中, Sakana 承认了这一问题,并感谢社区用户对此予以指出。
此后,他们对评估及运行时性能分析工具进行了彻底改进,以消除类似漏洞,并正相应地修订其研究成果和论文。该事件真实检验了 Sakana 所倡导的价值观之一 —— 在追求更优 AI 系统的过程中勇于迭代和保持透明。
Betting on evolutionary mechanisms 押注于进化机制
Sakana AI 的创始理念在于将进化计算与现代机器学习相结合。该公司认为,现有模型过于僵化,固守固定架构,且在面对新任务时需要重新训练。
相比之下, Sakana 致力于打造能够实时自适应、展现涌现行为,并通过交互反馈自然扩展的模型,类似于生态系统中的生物体。
这一愿景已在 Transformer? 等产品中初见端倪,该系统能够在推断时无需重新训练,通过奇异值分解等代数技巧调整大语言模型的参数。
同时,他们还致力于开源 AI Scientist 等系统 —— 尽管饱受争议 —— 展现出其愿意与更广泛的研究社区互动,而不仅仅是互相竞争。
在 OpenAI 和 Google 等大型企业加大对基础模型投入的背景下, Sakana 正在走一条不同的道路:构建小型、动态、受生物启发的系统,这些系统能够在时间上进行思考,天生协作,并通过经验不断进化。
来源:八哥科技坊