Llama 4震撼发布：单GPU运行，支持千万级超长上下文，2万亿参数巨模亮相

摘要：meta近日震撼发布了其Llama 4系列的首批模型，这一系列包括两款备受瞩目的高效模型——Llama 4 Scout与Llama 4 Maverick。这两款模型标志着meta首次涉足混合专家（MoE）架构，并成功打造出原生多模态模型。尤为引人注目的是，Sc

meta近日震撼发布了其Llama 4系列的首批模型，这一系列包括两款备受瞩目的高效模型——Llama 4 Scout与Llama 4 Maverick。这两款模型标志着meta首次涉足混合专家（MoE）架构，并成功打造出原生多模态模型。尤为引人注目的是，Scout模型首次支持超长10M上下文窗口，为用户提供了前所未有的使用体验。

Llama 4 Scout，被亲切地称为“小杯”模型，配备了16位专家和170亿活跃参数，总参数量高达1090亿。它不仅被誉为同类产品中全球顶尖的多模态模型，更提供了惊人的1000万tokens上下文窗口，相当于约500万字的文本处理能力。这一模型专为单张NVIDIA H100 GPU设计（支持Int4量化），并在多项基准测试中超越了Gemma 3、Gemini 2.0 Flash-Lite及Mistral 3.1。

而“中杯”模型Llama 4 Maverick，则以其强大的性能和极高的性价比脱颖而出。它拥有128位专家和同样170亿的活跃参数，但总参数量飙升至4000亿。Maverick在广泛基准测试中击败了GPT-4o和Gemini 2.0 Flash，同时在推理和编程方面与DeepSeek-v3旗鼓相当，而活跃参数仅为后者的一半。在LMArena上，其实验性聊天版本的ELO得分高达1417，每1M tokens的输入输出推理成本也极具竞争力。

这两款模型的卓越表现，得益于meta迄今最强大的“巨杯”模型——Llama 4 Behemoth的提炼。Behemoth拥有16位专家、2880亿活跃参数和近2万亿总参数，在STEM基准测试中力压GPT-4.5、Claude Sonnet 3.7及Gemini 2.0 Pro。尽管Behemoth仍在训练中，meta已迫不及待分享了部分技术细节，让人对其未来充满期待。

Llama 4系列模型的发布，不仅展示了meta在MoE架构和多模态设计上的深厚功底，更体现了其在提高算力利用率方面的创新。通过交替使用密集和混合专家层，以及优化的视觉编码器和训练技术metaP，meta成功降低了模型服务成本和延迟，提高了推理效率。meta还专注于使用FP8精度进行高效模型训练，确保了高质量的模型FLOP利用率。

Llama 4 Maverick在图像和文本理解方面展现了行业领先性能，支持创建复杂的AI应用程序以跨越语言障碍。其精准的图像理解和创意写作能力，使其成为通用助手和聊天用例的理想选择。而Llama 4 Scout则以其超长的上下文窗口和一流的性能，在多文档摘要、大量用户活动解析及庞大代码库推理等方面大放异彩。

目前，用户已可在WhatsApp、Messenger、Instagram Direct和meta.AI网站上试用基于Llama 4构建的meta AI。同时，Llama 4 Scout和Llama 4 Maverick模型也已从llama.com和Hugging Face平台开放下载，并将很快在主流云和数据平台、边缘芯片及全球服务集成商上提供服务。meta还预告将在4月29日的LlamaCon上分享更多关于其愿景的内容，让我们共同期待meta在AI领域的更多精彩表现。

来源：ITBear科技资讯

标签：震撼 gpu llama behemoth maverick

本文地址：https://news.43u.com.cn/a/1118713.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!