摘要:当大语言模型刚刚诞生时,你是否曾幻想过:某一天,它会不会小到能被塞进一只智能手表里?如今,这样的想象已经逐渐迈向现实——如智能手表这样的设备通过云端调用模型,实现了语音对话和智能助理功能。但未来的挑战不止局限于能部署在小型设备的「装进去」,如何在轻量化的同时维
当大语言模型刚刚诞生时,你是否曾幻想过:某一天,它会不会小到能被塞进一只智能手表里?如今,这样的想象已经逐渐迈向现实——如智能手表这样的设备通过云端调用模型,实现了语音对话和智能助理功能。但未来的挑战不止局限于能部署在小型设备的「装进去」,如何在轻量化的同时维持模型的推理能力与效率,更加值得关注。
针对于此,NVIDIA 团队于 2025 年 8 月 19 日推出轻量级大语言模型 NVIDIA-Nemotron-Nano-9B-v2 。作为 Nemotron 系列的混合架构优化版本,该模型创新性融合 Mamba 高效长序列处理与 Transformer 强语义建模能力,用 Mamba-2 状态空间层替换掉大部分自注意力层,让模型在处理长推理轨迹时速度更快。仅以 90 亿参数就实现了 128K 超长上下文支持,在复杂推理基准测试中,实现了与领先的同规模开源模型 Qwen3-8B 相当乃至更佳的准确率,吞吐量较后者至高提升 6 倍,标志着大语言模型在轻量化部署与长文本理解领域的重大突破。
换句话说,Nemotron-Nano-9B-v2 代表的不仅是「小设备里的模型」,而是让强大的推理能力真正走向轻量化、可普及化。或许未来,大语言模型能以「小而精」的形态,随时随地为人们提供智慧服务。
Nemotron Nano 2 与 Qwen3-8B 在准确率和吞吐量方面比较结果
研究团队并不是直接「造一个小模型」,而是先从一个 12B 参数的基准模型——Nemotron-Nano-12B-v2-Base 起步,在大量精选数据和合成数据上对其进行了预训练,同时还加入了涵盖多个领域的 SFT 式数据来增强推理。
随后,团队通过 SFT(监督微调)、 IFeval RL(指令跟随评估)、 DPO(直接偏好优化)、以及 RLHF(人类反馈强化学习)等多阶段后训练,让模型在数学、代码、工具调用、长上下文对话等方面更加精准稳健,相关后训练数据集以「Nemotron-Post-Training-Dataset-v2」更新后发布,将 SFT 与 RL 数据扩展到 5 种目标语言(西/法/德/意/日),覆盖数学、代码、 STEM(科学、技术、工程和数学)、对话等场景,用于提升模型的推理与指令跟随能力。
数据集地址:
研究团队基于 Minitron 压缩与蒸馏策略,采用一种轻量级的神经架构搜索方法对于模型组件(如每一层、前馈神经网络等)进行重要性评估再修剪。并通过蒸馏再训练,将原始模型中的能力提炼到剪枝后的模型中。最终将 12B 模型压缩成 9B 的 Nemotron-Nano-9B-v2,在保持推理准确率的同时显著降低了资源占用。
「vLLM + Open WebUI 部署 NVIDIA-Nemotron-Nano-9B-v2」现已上线 HyperAI 超神经官网(hyper.ai)的「教程」板块,快来体验与「小而精」的大语言模型对话吧!
教程链接:
1. 在浏览器输入网址 hyper.ai,进入首页后,点击「教程」页面,并选择「vLLM + Open WebUI 部署 NVIDIA-Nemotron-Nano-9B-v2」,点击「在线运行此教程」。
2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3. 选择「NVIDIA RTX A6000 48GB」以及「PyTorch」镜像,并点击「继续执行」。 OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
HyperAI 超神经专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=Ada0322_NR0n
4. 等待分配资源,首次克隆需等待约 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。
进入 Demo 运行页面后,在对话框内输入 Prompt 并点击运行即可。
立秋之后天气逐渐转凉,就让 Nemotron-Nano-9B-v2 为我们提供一些初秋防寒养生小指南吧。
以上就是 HyperAI 超神经本期推荐的教程,欢迎大家前来体验!
来源:HyperAI超神经