小语言模型,生成式AI的未来?

360影视 2025-02-06 21:06 3

摘要:经过企业特定数据的预训练,足够小的小语言模型(SLM),可以直接部署在本地边缘设备如大型生产设备的传感器或物联网(IoT)设备上,实时收集设备的数据,并进行分析,开展设备实时监控或预测性维护等应用。

经过企业特定数据的预训练,足够小的小语言模型(SLM),可以直接部署在本地边缘设备如大型生产设备的传感器或物联网(IoT)设备上,实时收集设备的数据,并进行分析,开展设备实时监控或预测性维护等应用。

快速训练、大小紧凑的SLM可以在车辆的车载计算机上运行。由于具有多模态功能,SLM模型可以将语音命令与图像分类相结合,如识别车辆周围的障碍物,甚至可以利用RAG功能,从高速公路法规或道路规则中检索详细信息,以帮助驾驶员做出更安全、更明智的驾驶决策。

就在大语言模型(LLM)声威日隆之际,来自SLM的新风正在悄然兴起,为人工智能带来了别样的创新活力。AI初创公司Cohere推出的R系列大语言模型中最小的模型Command R7B,面向注重速度、成本效率和灵活性的企业,经过微调可以部署在低端GPU、CPU甚至MacBook上,部署成本与效率大幅改善。

微软推出的140亿个参数的AI模型Phi-4旨在优化性能,同时最大限度地减少资源消耗,在解决复杂的数学问题上,性能甚至超过了许多LLM。

而DeepSeek R1推理模型在春节期间首次亮相后,以低廉的训练成本展示了领先的性能。DeepSeek的崛起表明,规模更大并不意味着更好,规模更小、更灵活的玩家可以与AI巨头大模型相媲美,并有可能战胜它们。DeepSeek的成功也表明,未来表现最好的模型将是开源的。

越来越多的企业正在推出SLM,挑战AI模型开发中“越大越好”的流行观念。SLM以更低的成本,更高的效率,可能会改变企业AI部署的格局,使预算有限的中小企业企业更容易获得AI模型的高级功能。

毫无疑问,大语言模型LLM是目前AI竞争的焦点,是人工智能发展的风向标,但庞大的规模和计算成本限制了其在实际应用中的普及。

而不同企业在小语言模型上的尝试却不断取得新突破。虽然SLM在实际应用不断扩大,但其重要性尚未得到充分重视。

其实,与LLM相比,SLM旨在以更少的参数和计算资源执行与语言相关的任务。尽管参数少,但这些SLM可以在特定任务中实现令人印象深刻的性能,使其成为各种应用的宝贵工具。

现在,人工智能企业价值创造的重心正在从大型语言模型转向小型语言模型,小型语言模型不仅代表小型,而且还代表着专业、安全。

就大小而言,SLM的参数范围从几百万到几十亿,而LLM具有数千亿甚至数万亿个参数。参数是模型在训练期间学习的内部变量,如权重和偏差,会影响机器学习模型的行为和执行方式。

就资源需求而言,小语言模型比大语言模型更紧凑、更高效。因此,SLM需要更少的内存和计算能力,使其成为资源受限的环境(如边缘设备和移动应用)的理想选择,甚至适合于没有数据网络的情况下离线完成AI推理的场景。

虽然小语言模型与大语言模型相似,都具有复杂的架构,并在数万亿个数据标记上进行训练,但主要区别之一是SLM的计算密集度较低,运行环境要求更小,速度更快。作为计算机文件的LLM可能为数百GB,而许多SLM小于5GB。

在部署方面,SLM针对效率进行了优化,使其适合在资源受限的环境中部署。同时虽然它们可能无法与LLM的多功能性相匹配,但SLM在大模型可能矫枉过正的特定任务中表现出色。

模型并不是越大越好,SLM在大小上的不足,正通过以下优势得以弥补:

在开发上,研究人员、AI开发人员和其他个人可以探索和试验小语言模型,而无需投资多个GPU(图形处理单元)或其他专用设备。

SLM可以进行微调,使其在特定任务中表现得非常出色。例如,可以针对文本分类、情绪分析和关键字提取等任务进行优化,在这些任务中,大型模型可能无法提供成比例的性能优势。

由于SLM需要的计算资源较少,因此消耗的能源更少,从而减少了其碳排放。SLM的精简性使其资源密集度较低,从而可以快速进行培训和部署。

组织可以节省开发、基础设施和运营费用,节省运行大模型所必需的大量高质量的训练数据和硬件等费用。

在有效性能上,小模型的性能可能与大模型等效项相当,甚至更好。例如,GPT-4o mini在语言理解、问答、推理、数学推理和代码生成LLM基准测试方面超过了GPT-3.5 Turbo。GPT-4o mini的性能也接近比其更大的GPT-4o。

更少的参数意味着更少的处理时间,使SLM能够快速响应。例如,Granite 3.0 1B-A400M和Granite 3.0 3B-A800M的总参数计数分别为10亿和30亿,而在推理时的活动参数计数对于1B模型为4亿,对于3B模型为8亿,使得这两个SLM都可以在提供高推理性能的同时最大限度地减少延迟。

在隐私和安全控制上,由于SLM的体积较小,因此可以部署在私有云计算环境或本地,从而改进数据保护,并更好地管理和缓解网络安全威胁。这对于隐私和安全都至关重要的金融、医疗保健等行业尤其有价值。

下表对比小语言模型和大语言模型之间的差异。

SLM和LLM的对比

那么,何时选择LLM,什么时候选择SLM呢?

一看任务复杂性。对于高度复杂的任务,如深入理解、长篇内容创作或解决棘手问题,像GPT-4o这样的大模型通常比SLM表现得更好。因为LLM可以处理这些任务,可以从大量数据中提取以提供更详细的答案。其缺点是这种复杂程度需要大量的计算能力和时间。

SLM适合更充分、更简单的任务,擅长专业应用和特定于领域的任务,可能难以处理复杂的语言任务和长期的上下文理解。

例如,如果您正在开发一个需要处理不同主题和复杂查询的通用聊天机器人,那么LLM会更合适。然而,对于专注于特定产品线的专业客户服务机器人来说,SLM可能绰绰有余,甚至优于LLM。

二看资源约束。当企在资源有限的环境中工作,SLM更合适,训练和部署需要的计算能力要少得多。在计算能力有限的情况下,如移动设备或边缘计算,SLM提供了性能和效率的良好组合,通常是更好的选择。

SLM在资源消耗方面更经济,可以在标准硬件上运行,甚至可以在智能手机、仪器设备等上运行。同时培训时间更短,更易于快速部署。

三看部署环境。如果企业在资源不成问题的云服务器上部署AI,那么LLM可能是不二之选,特别是如果需要高准确性和流畅的响应。但是如果您在CPU或GPU能力有限的设备上工作,那么SLM是更好的选择。

在考虑部署环境时,必须评估网络连接、延迟要求和隐私问题等因素。SLM可以在云中使用,但其较小的尺寸使其更适合资源有限的地方。它们处理较小的任务效率更高;非常适合设备上的AI,允许离线使用和更快的响应时间,可以运行移动助手、语音识别和其他实时应用程序,而无需互联网连接;非常适合边缘计算,其中快速响应和有效利用资源非常重要,在IoT设备、智能家居和其他边缘应用中支持AI。

专门的研究发现,LLM和SLM可以相互补充,共同提高系统的性能和资源利用效率。LLM在广泛的任务中具有优越的性能,而SLM在计算受限环境、任务特定环境和可解释性要求高的环境中具有显著优势。通过仔细权衡LLM和SLM之间的区别,可以为特定任务或应用选择最合适的模型,从而实现资源优化和高效系统的开发。

SLM是如何工作的呢?与大语言模型一样,小语言模型采用基于神经网络的架构,被称为Transformer模型。Transformer已成为自然语言处理(NLP)的基础,并充当生成式预训练Transformer(GPT)等模型的构建块。

模型压缩技术用于从更大的模型构建更精简的模型。压缩模型需要减小其大小,同时仍尽可能保持其准确性。常见的模型压缩方法包括:

修剪。修剪会从神经网络中删除不太重要、冗余或不必要的参数。通常修剪的参数包括对应于神经元之间连接的数字权重、神经元本身或神经网络中的层。修剪后的模型通常需要在修剪后进行微调,以弥补准确性的损失。

量化。量化将高精度数据转换为低精度数据。量化可以减轻计算负载并加快推理速度。

量化可以合并到模型训练中(称为量化感知训练或QAT),也可以在训练后完成(称为训练后量化或PTQ)。PTQ不需要像QAT那样多的计算能力和训练数据,但QAT可以生成更准确的模型。

低秩因式分解。低秩因式分解将大型权重矩阵分解为较小的较低秩矩阵。这种更紧凑的近似可以减少参数,减少计算次数并简化复杂的矩阵运算。

但是,低秩分解可能是计算密集型的,并且更难实现。与修剪一样,因式分解网络需要微调以恢复任何准确性损失。

知识提炼。知识提炼涉及将预先训练的“教师模型”的学习成果转移到“学生模型”中。学生模型经过训练,不仅可以匹配教师模型的预测,还可以模仿其潜在的推理过程。因此,较大模型的知识本质上被“提炼”成较小的模型。

知识提炼是许多SLM的常用方法。通常使用离线蒸馏方案,其中教师模型的重量被冻结,并且在蒸馏过程中无法更改。

小语言模型对企业意味着什么?“大多数公司将意识到,更小、更便宜、更专业的模型对99%的AI用例更有意义,”HuggingFace CEO Clem Delangue预测说。

较小的模型更易于使用,需要的硬件功能较低,并且使高级AI工具可供更多人和组织使用,在教育、数学、编码和研究等领域特别有用,在这些领域中,准确、循序渐进的推理至关重要。

SLM的特别之处在于能够提供强大的AI,而无需大量基础设施或持续的互联网连接,从而打开了如此多的应用。

边缘设备:SLM可以直接在智能手机、智能手表、物联网传感器和其他处理能力和内存有限的设备上运行,以实现文本预测、语音命令或简单问答等AI功能,而无需连接到远程服务器。

实时应用程序:SLM模型可以快速处理和生成文本,使其适用于网站上的实时聊天机器人、Siri或Alexa等语音助手或实时语言翻译应用。更快的响应时间改善了交互式场景中的用户体验。

隐私敏感域:在医疗保健、金融等数据隐私至关重要的领域,SLM允许在用户的设备上进行文本处理,意味着敏感信息不需要发送到外部服务器,从而降低了数据泄露的风险。

嵌入式系统:SLM可以内置到汽车中,用于车辆系统的自然语言接口,内置到智能家用电器中,用于语音控制,或内置到制造设备中,用于处理基于文本的命令或生成报告等。

低延迟环境:在视频游戏中,SLM可以为NPC(非玩家角色)实时生成动态对话。在增强现实应用程序中,SLM可以以最小的延迟快速处理语音命令或生成文本叠加。

资源受限的设置:在互联网连接较差的地区或无法使用强大计算机的发展中地区,SLM可以在基本硬件上提供AI功能,从而支持教育工具或本地语言处理。

个性化模型:SLM可以根据单个用户的写作风格进行微调,以便更好地进行文本预测,也可以根据特定的专业领域(如法律或医学)进行微调,以便更准确地理解和生成特定领域的语言。

流行的小语言模型有哪些?

在SLM上,微软走到了前列。其AI模型Phi已经从Phi-1发展到Phi-4。微软CEO Satya Nadella说:“微软喜欢SLM!”

在Ignite 2023上,微软宣布了Phi小语言模型(SLM)系列的最新版本,被称为Phi-2。Phi-2具有27亿个参数,并根据基准测试参数(如常识、语言理解和逻辑推理)展示了最先进的性能。“Phi-2是开源的,很快就出现在微软的模型即服务目录中,”

2024年早些时候,微软推出了Phi-3-Mini,一个38亿参数的语言模型,在3.3万亿个令牌的广泛数据集上进行训练。尽管尺寸紧凑,但Phi-3-Mini的性能水平可与Mixtral 8x7B和GPT-3.5等大型型号相媲美。

2024年年底,微软推出了Phi-4,使用140亿参数处理复杂的数学运算。Phi系列生成式AI模型旨在优化性能,同时最大限度地减少资源消耗。与其前身相比,Phi-4提供了改进的数学推理能力。性能的提升源于更高质量的训练数据和未指定的训练后增强功能的结合。与GPT-4o mini和Google的Gemini 2.0 Flash等其他较小型号相比,Phi-4在功能和速度方面具有激烈的竞争力,同时需要的计算资源更少。

Phi-4在解决数学问题方面表现出非凡的才能。该模型在美国数学协会的美国数学竞赛(AMC)等标准化测试中表现出色。结果表明,Phi-4在专业任务中经常可以超越大型和小型竞争对手,表明靶向设计可以在特定领域(如科学研究和工程)产生显着优势。

这一系列SLM都有一些共性:开源;在高度专业化的数据集上开发的模型可以与150倍大的模型相媲美;通过正确的微调和定制,这些SLM是适用于云和边缘应用的非常强大的工具。

阿里巴巴发布了Qwen的Base和Instruct模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B等,并使用除英文和中文之外的27种其他语言的数据进行训练。

这些小语言模型架构先进高效。Qwen2系列的所有小语言模型都使用了分组查询注意力(GQA)机制,能加速推理过程并降低显存占用,在处理长文本等任务时可以提高效率。

针对小模型,Qwen2采用了Tie Embedding的方法,让输入和输出层共享参数,增加非Embedding参数的占比,进一步提高模型的训练和推理效率。

另一个特点是多语言能力强。在中文和英语的基础上,模型的训练数据中增加了27种语言的高质量数据,使小语言模型具备了较强的多语言能力,能处理多种语言的任务,如文本生成、语言理解等。

适用场景广泛,可以应用于资源受限场景:Qwen2-0.5B作为基础模型,参数规模较小,适合在资源受限的环境下应用,如一些计算资源有限的小型设备或应用场景。

复杂任务场景:Qwen2-7B属于较大规模的小模型,适用于更复杂的任务和场景,在多语言处理、编程、数学和逻辑推理等多个领域都表现出色,可以用于文本生成、问题回答、对话系统等多种自然语言处理场景。

中等任务需求:Qwen2-1.5B是中等规模模型,性能处于中间水平,可满足一些对模型性能有一定要求,但又不需要过高计算资源的场景,在文本相关的任务中能有较好表现。

在开源上,Meta的开源SLM不能忽视。Llama是Meta的开源语言模型系列。当Meta发布有四种变体——70亿、130亿、330亿和650亿的LLaMA时,至少在某种意义上预示着参数较少的较小模型也可以表现出色。

Meta AI第二代开源大型语言模型Llama 2拥有340亿个参数,而较小的70亿参数的Llama 2 7B模型是专门为研究目的制作的。与前身相比,它显著提高了该模型的性能、效率和可访问性。

更新的Llama 3.2有1亿个和30亿个参数大小,比早期的70亿个参数的Llama 2版本还要小。这些多语言纯文本模型的量化版本已缩小到其大小的一半以上,速度提高了2~3倍。

MobileLLaMA是LLaMA的专门版本,旨在在移动和低功耗设备上表现出色。它拥有14亿个参数,旨在让用户在性能和效率之间取得平衡,尤其是在资源有限的设备上。

MobileLLaMA针对移动中的速度和低延迟AI应用进行了优化。凭借MobileLLaMA-1.4B和MobileLLaMA-2.7B等版本,它轻松超越了TinyLLaMA 1.1B等较小的型号,并与OpenLLaMA 3B展开激烈竞争,同时速度提高了约40%。

目前的许多开源模型都是建立在Llama系列模型之上的。

其他一些SLM模型影响也比较大。如:

OpenAI发布了GPT-4o mini,一种极具成本效益的模型。GPT-4o mini的定价为每百万输入代币0.15美元和每百万输出代币0.6美元,比GPT-40便宜30倍,比GPT-60 Turbo便宜3.5%。

总部位于巴黎的AI初创公司Mistral AI与NVIDIA合作发布了Mistral NeMo,一个120亿参数模型,具有128令牌上下文长度。以Gemma 2 9B和Llama 3 8B为基准,它在推理、世界知识和编码准确性方面表现出色。

Hugging Face也发布了一系列名为SmolLM的新系列紧凑语言模型,提供30M、350M和1.7B三种尺寸。这些型号非常适合在笔记本电脑和手机等本地设备上使用,无需基于云的资源,并显著降低能耗。

Apple也加入了SLM阵营,发布了一个名为DCLM-BASELINE 7B的模型,以及它的权重、训练代码和数据集。该模型使用来自开放数据集的2.5万亿个代币进行训练,主要使用英语数据,并具有2048个代币的上下文窗口。

阿联酋的技术创新研究所(TII)推出了一个名为Falcon 3的新小语言模型系列。模型的范围从10亿个参数到100亿个参数不等,包括base和instruct版本。Falcon在TII的Falcon许可证2.0下作为开源模型提供。

X Gen是Salesforce AI首创的70亿参数小语言模型,主要专注于对话和文本生成、翻译和代码完成等各种任务。X Gen可提供更高的计算效率,促进更广泛的部署。X Gen拥有Salesforce AI的多语言功能,其应用范围从创意写作、内容创建到软件开发和语言学习。

虽然SLM具有许多优势,但也存在一些局限性。在某些情况下,这些限制会对性能或适用性产生负面影响,例如:

应用范围受限,SLM专为特定领域或任务而设计,因而缺乏LLM在各种主题中的广泛功能。

复杂理解能力有限,SLM的参数明显少于LLM,限制了它们捕获复杂的上下文依赖关系和细微语言模式的能力。

面临数据质量挑战。SLM的有效性取决于其训练数据的质量,而训练数据的质量通常不如LLM的训练集可靠。

可扩展性受限。虽然小型语言模型对于中小型应用很有效,但它们难以有效地用于大规模部署。

对人员的技术专长有要求。自定义和微调SLM以满足特定的企业需求,需要数据科学和机器学习方面的专业知识。

未来SLM将变得更小和更加高效。专家认为,DeepSeek R1的模型的崛起可能可能预示着一个未来发展方向,即复杂的AI系统将足够小且高效,可以在智能手机、平板电脑等设备上运行,而不需要对云计算基础设施进行大量投资。

未来,SLM将变得更小和更加高效。随着更大的模型的出现,模型训练过程将不断完善和优化,为模型小型化提供技术积累。在这些技术积累的带动下,未来将会出现规模更小、更加高效的模型。

因为我们需要自动化技术来重构训练数据,并将其塑造成理想的合成格式,因此自然语言模型必须先变大,然后才能变小。

SLM或专业模型将成为未来,并与GPT-4或Claude 3.5 Sonnet等通用模型共存。正如前文所言,因此,在自然语言大模型领域,专业模型和通用模型将共存,而且一个不能替代另一个。以往认为的“我们只需要一个API(如OpenAI)”是错误的。我们既需要针对下一代通用人工智能(AGI)的巨型模型,也需要可以集成到当今工作流程中的专业小模型。

同时,SLM或专业模型将得到广泛应用,对于日常使用,8B或10B SLM就足够了。如果您不想对模型进行最大测试,则不需要SOTA模型(某一特定领域或任务中当前最先进、性能最优的模型)。

与大型公有模型的私有实例相比,使用隔离在客户私有数据库中的SLM似乎是一个缺点。为了应对SLM的挑战,现在很多SLM已经允许客户采用订阅模式,使用最新数据持续训练和微调模型。这种模块化和标准化的方法大大减轻了使用小型私有模型的缺点。一旦拥有了一套更完整的工具和程序,拥有私有小语言模型的缺点在很大程度上是可以解决的。

SLM的成本效益将日益突出。持续使用LLM的缺点正在逐渐显现,包括推理成本高,能耗高等。而SLM如Gemma或LLaMA 8B等,具有成本效益,所需要的计算量更少,并且推理消耗的能量更少。

OpenAI过去每天花费大约70万美元来运行ChatGPT。使用GPT-4o mini,成本可能会在一定程度上降低。此外,由于SLM可以在本地设备上运行,而无需云,因此不需要大量的AI基础设施GPU。

与Claude 3.5 Sonnet和Google的Gemini 1.5 Pro相比,OpenAI的GPT-4o mini要便宜得多。根据Hugging Face的说法,GPT-4o mini综合输入和输出成本仅为每100万个代币0.75美元。

令人难以置信的是,在SLM的带动下,由于计算硬件(英伟达的H100 GPU)、软件(CUDA、cuBLAS、cuDNN、FlashAttention)和数据质量(如FineWeb-Edu数据集)的改进,大模型训练和推理成本在过去五年中急剧下降。

未来SLM成本效益将日益突出,可以安装在更小的芯片上,需要更少的内存,并且处理速度更快。

小语言模型可能缺乏规模,但它们的潜力足以弥补,有能力影响AI应用的领域。在一个并非每个人都能平等地使用AI的世界里,小语言模型代表了针对不同需求量身定制模型的未来。

随着训练技术的改进、硬件的进步和高效架构的进步,SLM和LLM之间的差距将继续缩小,将为令人兴奋的新应用打开大门,并使AI开发能够覆盖更广泛的人群。

来源:数据猿

相关推荐