摘要:近年来,人工智能模型的性能越来越高,但规模也越来越大。神经网络权重占用的内存量一直在稳步增长,有些模型的参数多达 5000 亿甚至数万亿。在传统计算机架构上进行推理时,每次移动这些权重进行计算都会耗费时间和能源。模拟内存计算将内存和计算结合在一起,消除了这一瓶
近年来,人工智能模型的性能越来越高,但规模也越来越大。神经网络权重占用的内存量一直在稳步增长,有些模型的参数多达 5000 亿甚至数万亿。在传统计算机架构上进行推理时,每次移动这些权重进行计算都会耗费时间和能源。模拟内存计算将内存和计算结合在一起,消除了这一瓶颈,节省了时间和能源,同时仍能提供卓越的性能。
在三篇新论文中,IBM 研究科学家展示了他们在可扩展硬件方面的工作,该硬件包括用于大型模型的 3D 模拟内存架构、用于紧凑边缘大小模型的相变存储器以及加速变压器注意力的算法创新。
IBM 研究团队的一项新研究表明,基于模拟内存计算的芯片特别适合运行尖端的专家混合 (MoE) 模型,在多个方面的表现都优于 GPU。他们的研究成果刊登在《自然计算科学》杂志的封面上,表明 MoE 网络层中的每个专家都可以映射到 3D 非易失性存储器的物理层上,这种存储器是 3D 模拟内存计算芯片中独特的大脑启发式芯片架构。通过大量的数值模拟和基准测试,该团队发现这种映射可以在运行 MoE 模型时实现出色的吞吐量和能效。
连同 IBM Research 的另外两篇新论文,它展示了内存计算为边缘和企业云应用程序使用转换器架构支持 AI 模型的前景。根据这些新论文,现在是时候将这项实验技术带出实验室了。
专业知识层
“将模拟内存计算带入第三维度,可以确保即使大型变压器架构的模型参数也可以完全存储在芯片上,”IBM 研究科学家、MoE 论文的主要作者 Julian Büchel 表示,该论文证明将 MoE 的每个“专家”在 3D 模拟内存计算图块中堆叠在一起是有益的。
在MoE 模型中,神经网络的特定层可以拆分成更小的层。每个较小的层都称为“专家”,指的是它专门处理数据子集。当输入到来时,路由层会决定将数据发送给哪个专家(或哪些专家)。当他们将两个标准 MoE 模型运行到性能模拟工具中时,模拟硬件的表现优于最先进的 GPU。
“这样,你就可以更好地扩展神经网络,部署一个大型且功能强大的神经网络,而计算占用空间却要小得多,”领导新论文团队的 IBM 研究科学家 Abu Sebastian 表示。“你可以想象,它还可以最大限度地减少推理所需的计算量。” Granite 1B 和 3B使用这种模型架构来减少延迟。
在这项新研究中,他们使用模拟硬件将 MoE 网络的各层映射到模拟内存计算图块上,每个图块由多个垂直堆叠的层组成。这些包含模型权重的层可以单独访问。在论文中,该团队将这些层描述为一栋高层办公楼,有多个楼层,每个楼层都有不同的专家,可以根据需要随时调用。
将专家层堆叠到不同的层级上是直观的,但这种策略的结果才是最重要的。在他们的模拟中,与运行相同模型的商用 GPU 相比,3D 模拟内存计算架构在运行 MoE 模型时实现了更高的吞吐量、更高的面积效率和更高的能源效率。在能源效率方面,优势最大,因为 GPU 在内存和计算之间移动模型权重时会牺牲大量时间和能源——而模拟内存计算架构中不存在这个问题。
参与此项工作的 IBM 研究科学家 Hsinyu (Sidney) TsAI 表示,这是迈向成熟的 3D 模拟内存计算的关键一步,最终可以加速云环境中的企业 AI 计算。
边缘计算
该团队撰写的第二篇论文是一项加速器架构研究,该研究于 12 月在 IEEE 国际电子设备会议的受邀演讲中发表。他们展示了使用超低功耗设备在边缘应用上执行 AI 推理的可行性
相变存储器 (PCM) 设备通过一块硫属化物玻璃的导电性来存储模型权重。当更多的电压通过玻璃时,它会从晶体重新排列成非晶态固体。这会使它的导电性降低,从而改变矩阵向量乘法运算的值。
“在边缘设备中,存在能源限制、成本限制、面积限制和灵活性限制,”参与撰写该论文的 IBM 研究科学家 Irem Boybat 表示。“因此,我们提出了这种架构,以满足边缘 AI 的这些要求。”她和她的同事概述了一种神经处理单元,其中混合了基于 PCM 的模拟加速器和数字加速器节点,它们协同工作以处理不同级别的精度。
Boybat 表示,由于这种灵活的架构,各种神经网络都可以在这些设备上运行。为了撰写本文,她和同事们探索了一种为移动设备定制的转换器模型,名为MobileBERT。根据他们自己的吞吐量基准,该团队提出的神经处理单元的性能优于市场上现有的低成本加速器,并且根据 MobileBERT 推理基准的测量,它的性能接近一些高端智能手机。
Sebastian 表示,这项工作代表着向未来迈出了一步,即模拟内存计算设备可以低成本批量生产,将所有模型权重存储在芯片上,用于 AI 模型。此类设备可以成为微控制器的基础,帮助边缘应用进行 AI 推理,例如自动驾驶汽车的摄像头和汽车传感器。
模拟变压器
最后但并非最不重要的一点是,研究人员概述了在模拟内存计算芯片上首次部署变压器架构,包括涉及静态模型权重的每个矩阵向量乘法运算。与所有运算都以浮点数执行的场景相比,它在名为Long Range Arena的基准测试中执行的准确度在 2% 以内,该基准测试测试长序列的准确性。结果发表在《自然机器智能》杂志上。
从更大角度来看,这些实验表明,使用模拟内存计算可以加速注意力机制——这是 Transformer 的一个主要瓶颈,IBM 研究科学家 Manuel Le Gallo-Bourdeau 表示。“Transformer 中的注意力计算必须完成,而这不是可以直接通过模拟加速的事情,”他补充道。障碍在于注意力机制中需要计算的值。它们是动态变化的,这需要不断重新编程模拟设备——从能源和耐久性的角度来看,这是一个不切实际的目标。
为了克服这一障碍,他们使用一种称为核近似的数学技术,用他们的实验模拟芯片执行非线性函数。塞巴斯蒂安说,这一发展很重要,因为以前人们认为这种电路架构只能处理线性函数。该芯片采用大脑启发式设计,将模型权重存储在相变存储器中,这些存储器排列成横杆,就像 MoE 实验中模拟的系统一样。
“注意力计算是一个非线性函数,对于任何人工智能加速器来说,这都是一个令人非常不愉快的数学运算,尤其是对于模拟内存计算加速器,”塞巴斯蒂安说。“但这证明了我们可以用这个技巧做到这一点,而且我们还可以提高整个系统的效率。”
核近似这一技巧解决了非线性函数的需求,它使用随机采样向量将输入投影到高维空间,然后在得到的高维空间中计算点积。核近似是一种通用技术,可以应用于各种场景,而不仅仅是使用模拟内存计算的系统,但它恰好非常适合这一目的。
IBM 院士 Vijay Narayanan 评论道:“这些论文为未来现代 AI 工作负载可以在云端和边缘上运行带来了重大突破。”
来源:智慧芯片