Mistral开源Mistral Small 3 24B，称性能超越3倍大的Llama 3.3

摘要：Mistral Small 3是为了能完成80%生成式AI任务而以指令预训练的模型，参数量240亿，以便在本地部署且仍能提供强大性能。Mistral表示，Mistral Small 3比竞争模型少很多层，大幅缩短每次前向传递（forward pass）的时间。

法国AI创业公司Mistral AI上周公布开源高速、低延迟的模型Mistral Small 3 24B，性能超越参数量3倍大的Llama 3.3 70B。

Mistral Small 3是为了能完成80%生成式AI任务而以指令预训练的模型，参数量240亿，以便在本地部署且仍能提供强大性能。Mistral表示，Mistral Small 3比竞争模型少很多层，大幅缩短每次前向传递（forward pass）的时间。它在MMLU测试精准度达81%，延迟性为150 token/s。Mistral Small也是目前同类别中最有效率的模型。

以基准测试表现而言，Mistral Small 3在MMLU、Math、GPQA Main都超越Llama 3.1 70B和Google Gemma 2 27B，而在不同语言的MMLU测试中，Mistral Small也都超越Llama 3.1 70B及Gemma 2 27B（但落后于Qwen 2.5-32B）。

这家创业公司指出，Mistral Small 3 24B模型适用场景包括反应快速的口语协助、低延迟的函数调用、微调后自建特定领域专家、以及在PC或Mac平台上执行本地推论。经过量化（quantized）压缩的Mistral Small 3可执行在单一颗RTX 4090或一台具32GB RAM的MacBook上。该公司称Mistral Small 3已有金融、医疗、机器人/自动化/制造业客户评估中。水平使用场景则包含客服和情感与反馈分析。

Mistral以Apache 2.0授权开源预训练和指令微调的check point版本。这些checkpoint版本可作为其他开发人员改进的基础。企业相信，和最近爆红的开源推理模型像是DeepSeek类似，Small 3也可促进AI推理能力的演进。

但Mistral提醒，Mistral Small 3不是以强化学习和合成数据训练，因此在AI模型生产机制上属于较前期结果，不像新兴的DeepSeek R1那么成熟。

Small 3 24B模型已以Apache 2.0授权在la Plateforme开源，显示名称为mistral-small-latest或mistral-small-2501。Mistral AI同时也公告，该公司逐渐舍弃非传统开源MRL授权，因而其通用模型也将改用Apache 2.0授权。因此连同Mistral Small 3，其模型权重也可开放下载于本地供自由修改和使用，或在la Plateforme开放Mistral AI本地部署及VPC环境、定制化和协同平台、以及其推论与云计算合作伙伴平台上以serverless API访问。需要特殊能力（像是加快速度和加大context、特定领域知识、特殊任务能力如完成程序撰写等）的企业和开发人员，也可以在Mistral Small 3之外再使用额外的商用模型补强。

Mistral AI也和AI平台包括Hugging Face、Ollama、Kaggle、Together AI、IBM watsonx和Fireworks AI等合作上架Small 3模型。不久之后也会在Nvidia NIM、Amazon SageMaker、Groq、Databricks和Snowflake上架。

来源：十轮网

标签： llama mistral mistralsmall

本文地址：https://news.43u.com.cn/a/575015.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!