谷歌发布Gemma 3n大模型预览版:强大、高效、移动优先!

360影视 欧美动漫 2025-05-21 19:30 2

摘要:在Gemma 3n和Gemma3 ART之后,谷歌Deepmind又发布了一个新的开放大模型Gemma 3n。和Gemma 3强大的功能不同,Gemma 3n主要设计为日常移动设备,手机、平板电脑和笔记本电脑上高性能实时运行的AI。

在Gemma 3n和Gemma3 ART之后,谷歌Deepmind又发布了一个新的开放大模型Gemma 3n。和Gemma 3强大的功能不同,Gemma 3n主要设计为日常移动设备,手机、平板电脑和笔记本电脑上高性能实时运行的AI。

Gemma 3n是首个突破性共享架构构建开放模型,该预览版即支持开发者能够立即体验这项技术。Gemma 3n也为下一代Gemini Nano提供支持,它将这些功能带入谷歌应用和设备端生态系统的众多功能。在此基础上构建应用,并将应用到安卓和Chrome等主流平台上。

针对移动端内存受限的设备,Gemma 3n中引入了一项名为“逐层嵌入”(PLE) 的创新技术,可以显著降低内存占用。利用PLE,Gemma 3n实现以2B和4B的内存开销来运行原始参数数量5B和8B的模型,使其内存开销仅需2GB和3GB的动态内存。

根据Chatbot Arena Elo基准测试Gemma 3n 4B的排名高于其他大nB的模型几乎可以与Claude 3.7 Sonnet媲美。

Gemma 3n专为在本地运行快速、低占用空间的AI体验而设计:

优化的设备性能和效率:在移动设备上的响应速度大约提高1.5倍,质量明显更好(对比Gemma 3 4B),并且通过每层嵌入、KVC共享和高级激活量化等创新实现了内存占用的减少。

多合一灵活性: 一个具有4B活跃内存占用的模型,原生包含一个嵌套的最先进的2B活跃内存占用子模型。这提供了灵活性,无需托管单独的模型,即可动态地在性能和质量之间进行权衡。Gemma 3n中引入了混合搭配功能,可以从4B模型中动态创建子模型,从而最佳地适应特定用例以及相关的质量/延迟权​衡。隐私优先和离线就绪:没有互联网连接,本地执行也能实现尊重用户隐私并可靠运行的功能。

通过音频扩展多模态理解:Gemma 3n能够理解和处理音频、文本和图像,并显著增强视频理解能力。其音频功能使模型能够执行高质量的自动语音识别(转录)和翻译(语音转译文)。此外,该模型还接受跨模态的交错输入,从而能够理解复杂的多模态交互。

增强的多语言能力:提升了多语言性能,尤其提升了日语、德语、韩语、西班牙语和法语的翻译能力。强劲的性能体现在多语言基准测试中,例如WMT24++ (ChrF) 的得分高达50.1%。

该图表显示了Gemma 3n 混合搭配(预训练)功能的MMLU性能与模型大小的关系。

Gemma 3n将支持开发人员实现以下功能,从而催生新一波智能移动应用程序:

构建实时交互式体验, 理解并响应来自用户环境的实时视觉和听觉提示。

实现更深入的理解和上下文文本生成——所有这些都在设备上私密处理。 通过组合音频、图像、视频和文本输入

3开发先进的以音频为中心的应用程序 ,包括实时语音转录、翻译和丰富的语音驱动交互。

以下是概述以及可以构建的体验类型:

目前可以直接通过浏览器中访问Google AI Studio进行在线尝试:

另外据悉,目前也支持通过新版安卓手机上使用:

从github下载Edge Gallery apk:

github /google-ai-edge/gallery/releases/tag/1.0.0

然后从huggingface下载其中一个模型.task文件:

huggingface.co/collections/google/gemma-3n-preview-682ca41097a31e5ac804d57bb

使用右下角的+在Edge Gallery中导入.task 文件。 然后就可以直接从应用程序拍照。

据朋友测试gemma-3n-E4B 的表现似乎介于普通的Gemma3 4B和12B之间。

图片解释功能运行良好,OCR功能也一样。模型中编码的知识明显不足,但它对已知信息能够很好地描述。这对于一个只比DVD大一点的模型来说已经足够好了。

另外有网友指出,该模型在小米14上可以和快的运行。

来源:虫虫安全

相关推荐