谷歌发布Gemma 3n大模型预览版：强大、高效、移动优先！

摘要：在Gemma 3n和Gemma3 ART之后，谷歌Deepmind又发布了一个新的开放大模型Gemma 3n。和Gemma 3强大的功能不同，Gemma 3n主要设计为日常移动设备，手机、平板电脑和笔记本电脑上高性能实时运行的AI。

在Gemma 3n和Gemma3 ART之后，谷歌Deepmind又发布了一个新的开放大模型Gemma 3n。和Gemma 3强大的功能不同，Gemma 3n主要设计为日常移动设备，手机、平板电脑和笔记本电脑上高性能实时运行的AI。

Gemma 3n是首个突破性共享架构构建开放模型，该预览版即支持开发者能够立即体验这项技术。Gemma 3n也为下一代Gemini Nano提供支持，它将这些功能带入谷歌应用和设备端生态系统的众多功能。在此基础上构建应用，并将应用到安卓和Chrome等主流平台上。

针对移动端内存受限的设备，Gemma 3n中引入了一项名为“逐层嵌入”(PLE) 的创新技术，可以显著降低内存占用。利用PLE，Gemma 3n实现以2B和4B的内存开销来运行原始参数数量5B和8B的模型，使其内存开销仅需2GB和3GB的动态内存。

根据Chatbot Arena Elo基准测试Gemma 3n 4B的排名高于其他大nB的模型几乎可以与Claude 3.7 Sonnet媲美。

Gemma 3n专为在本地运行快速、低占用空间的AI体验而设计：

优化的设备性能和效率：在移动设备上的响应速度大约提高1.5倍，质量明显更好（对比Gemma 3 4B），并且通过每层嵌入、KVC共享和高级激活量化等创新实现了内存占用的减少。

多合一灵活性： 一个具有4B活跃内存占用的模型，原生包含一个嵌套的最先进的2B活跃内存占用子模型。这提供了灵活性，无需托管单独的模型，即可动态地在性能和质量之间进行权衡。Gemma 3n中引入了混合搭配功能，可以从4B模型中动态创建子模型，从而最佳地适应特定用例以及相关的质量/延迟权衡。隐私优先和离线就绪：没有互联网连接，本地执行也能实现尊重用户隐私并可靠运行的功能。

通过音频扩展多模态理解：Gemma 3n能够理解和处理音频、文本和图像，并显著增强视频理解能力。其音频功能使模型能够执行高质量的自动语音识别（转录）和翻译（语音转译文）。此外，该模型还接受跨模态的交错输入，从而能够理解复杂的多模态交互。

增强的多语言能力：提升了多语言性能，尤其提升了日语、德语、韩语、西班牙语和法语的翻译能力。强劲的性能体现在多语言基准测试中，例如WMT24++ (ChrF) 的得分高达50.1%。