摘要:在过去几年,Transformer 架构主导了生成式人工智能的发展,并推动了 ChatGPT 等大型语言模型的成功。然而,随着模型规模的不断扩张,这一技术逐渐暴露出难以忽视的瓶颈:对海量计算资源和数据的依赖使其训练和推理成本愈发高昂,同时在长序列建模、实时性需
在过去几年,Transformer 架构主导了生成式人工智能的发展,并推动了 ChatGPT 等大型语言模型的成功。然而,随着模型规模的不断扩张,这一技术逐渐暴露出难以忽视的瓶颈:对海量计算资源和数据的依赖使其训练和推理成本愈发高昂,同时在长序列建模、实时性需求以及设备部署的灵活性方面也存在显著不足。
这些限制促使学术界和产业界开始寻求其他技术路径,以突破这些困境。而一家来自 MIT 的初创企业 Liquid AI 就提出了一种全新的液体基础模型(Liquid Foundation Model, LFM),通过其创新性的架构设计,提供了一种更高效、更轻量化的生成式 AI 解决方案。
近日,该公司宣布完成 2.5 亿美元 A 轮融资,由芯片巨头 AMD 领投。据彭博社报道,此轮融资后 Liquid AI 估值已超过 20 亿美元。
Liquid AI 的液体基础模型借鉴了线虫(Caenorhabditis elegans)神经系统的特点。线虫的神经元数量仅为 302 个,却能够完成复杂的感知和行为任务,其神经连接模式和动态特性成为 Liquid AI 设计新型 AI 模型的灵感来源。这一模型核心采用“液体神经网络”(Liquid Neural Network)的架构,利用动态权重更新机制和基于非线性微分方程的连续时间建模,突破了传统 Transformer 架构的局限性。
液体基础模型在设计上的一大创新是其动态权重更新机制。在传统 Transformer 中,权重在训练完成后保持固定,模型对数据变化的适应性有限。而 LFM 则能够根据输入数据实时调整网络参数,从而在处理复杂、多变的数据环境时表现更加灵活。
此外,LFM 采用了基于非线性微分方程的神经建模方法,通过模拟神经元的连续时间动态行为,使模型不仅能够捕捉短期特征,还可以在长序列建模中展现卓越的性能。这种动态建模的特点,使得 LFM 在长时间尺度依赖的任务中表现优异,而 Transformer 架构则往往由于自注意力机制的高计算复杂度而受限。
实验结果显示,Liquid AI 首次发布的三种不同规模和用途的模型在多个基准测试上都表现出色。例如,经过微调的 LFM-1B 模型在多个自然语言处理任务中超越了传统的同等规模模型,成为该参数规模的新标杆。同时,与更大规模的模型相比,LFMs 在推理效率和存储需求上具有较大优势,这为其在低资源场景下的广泛部署提供了可能。
为了进一步提升液体基础模型的性能和适用性,Liquid AI 还开发了一套名为定制架构合成”(Synthesis of Tailored Architectures via Targeted Evolution, STAR)的优化框架。STAR 通过模拟自然选择的过程,对液体基础模型的神经网络架构进行自动化优化。
这一框架以进化算法为核心,生成多个候选模型,并基于特定任务的目标函数对其性能进行评估。表现优异的模型被“选中”,其架构特征(例如神经元连接模式和层次结构)被用来生成下一代候选模型。经过多轮迭代,STAR 能够自动生成满足任务需求的最优架构,从而提升了模型的适配性和效率。
STAR 不仅充分利用了液体基础模型的动态权重更新和非线性建模特性,还针对不同任务的特定需求进行了精细化优化。例如,对于需要处理长序列依赖的任务,STAR 通过调整网络深度和神经元之间的动态连接模式,生成更适合该任务的架构。这种高度针对性的优化方式,使得液体基础模型在长时间序列建模中不仅减少了内存占用和推理时间,还实现了卓越的性能。
实验数据显示,STAR 方法自动合成的模型架构,其性能始终优于高度优化的 Transformer++ 和混合模型。
例如,在优化质量和缓存大小时,STAR 演化架构与混合模型相比实现了高达 37% 的缓存大小减少,与 Transformers 相比则减少了 90%。尽管效率有所提高,但 STAR 生成的模型仍保持甚至超过了同类模型的预测性能。
类似地,在优化模型质量和大小时,STAR 将参数数量减少了多达 13%,同时仍仍提高了标准基准测试的性能。
这种自动生成针对特定需求优化的定制架构的方法,对于满足对高效且高质量的模型的需求意义重大,有助于推动生成式 AI 在各种实际场景中的部署和应用。
Liquid AI 的技术已经被用于基因数据分析、金融欺诈检测以及自动驾驶等领域,同时也为消费电子和边缘计算提供了解决方案。其灵活性和轻量化特性正引起产业界的关注,Shopify 的首席技术官 Mikhail Parakhin 在社交媒体上表示:“Liquid AI 在非 Transformer 架构的尝试中堪称领跑者。”
此次 Liquid AI 获得由 AMD 领投的 2.5 亿美元融资,将进一步推动其技术研发和市场化进程。据 Liquid AI 联合创始人兼首席执行官 Ramin Hasani 透露,这笔资金将被用于扩大技术团队规模,并加速模型的行业落地。AMD 高级副总裁 Mathew Hein 称:“我们只是从根本上相信,人工智能领域仍有大量创新在继续,并推动模型向前发展。”
参考资料:
1.https://www.liquid.ai/liquid-foundation-models
2.https://www.liquid.ai/research/automated-architecture-synthesis-via-targeted-evolution
3.https://www.bloomberg.com/news/articles/2024-12-13/liquid-ai-raising-250-million-to-build-ai-inspired-by-worm-brains
4.https://venturebeat.com/ai/liquid-ais-new-star-model-architecture-outshines-transformer-efficiency/
来源:新浪科技