Mistral开源Mistral Small 3 24B,称性能超越3倍大的Llama 3.3

360影视 2025-02-03 19:14 2

摘要:Mistral Small 3是为了能完成80%生成式AI任务而以指令预训练的模型,参数量240亿,以便在本地部署且仍能提供强大性能。Mistral表示,Mistral Small 3比竞争模型少很多层,大幅缩短每次前向传递(forward pass)的时间。

法国AI创业公司Mistral AI上周公布开源高速、低延迟的模型Mistral Small 3 24B,性能超越参数量3倍大的Llama 3.3 70B。

Mistral Small 3是为了能完成80%生成式AI任务而以指令预训练的模型,参数量240亿,以便在本地部署且仍能提供强大性能。Mistral表示,Mistral Small 3比竞争模型少很多层,大幅缩短每次前向传递(forward pass)的时间。它在MMLU测试精准度达81%,延迟性为150 token/s。Mistral Small也是目前同类别中最有效率的模型。

以基准测试表现而言,Mistral Small 3在MMLU、Math、GPQA Main都超越Llama 3.1 70B和Google Gemma 2 27B,而在不同语言的MMLU测试中,Mistral Small也都超越Llama 3.1 70B及Gemma 2 27B(但落后于Qwen 2.5-32B)。

这家创业公司指出,Mistral Small 3 24B模型适用场景包括反应快速的口语协助、低延迟的函数调用、微调后自建特定领域专家、以及在PC或Mac平台上执行本地推论。经过量化(quantized)压缩的Mistral Small 3可执行在单一颗RTX 4090或一台具32GB RAM的MacBook上。该公司称Mistral Small 3已有金融、医疗、机器人/自动化/制造业客户评估中。水平使用场景则包含客服和情感与反馈分析。

Mistral以Apache 2.0授权开源预训练和指令微调的check point版本。这些checkpoint版本可作为其他开发人员改进的基础。企业相信,和最近爆红的开源推理模型像是DeepSeek类似,Small 3也可促进AI推理能力的演进。

但Mistral提醒,Mistral Small 3不是以强化学习和合成数据训练,因此在AI模型生产机制上属于较前期结果,不像新兴的DeepSeek R1那么成熟。

Small 3 24B模型已以Apache 2.0授权在la Plateforme开源,显示名称为mistral-small-latest或mistral-small-2501。Mistral AI同时也公告,该公司逐渐舍弃非传统开源MRL授权,因而其通用模型也将改用Apache 2.0授权。因此连同Mistral Small 3,其模型权重也可开放下载于本地供自由修改和使用,或在la Plateforme开放Mistral AI本地部署及VPC环境、定制化和协同平台、以及其推论与云计算合作伙伴平台上以serverless API访问。需要特殊能力(像是加快速度和加大context、特定领域知识、特殊任务能力如完成程序撰写等)的企业和开发人员,也可以在Mistral Small 3之外再使用额外的商用模型补强。

Mistral AI也和AI平台包括Hugging Face、Ollama、Kaggle、Together AI、IBM watsonx和Fireworks AI等合作上架Small 3模型。不久之后也会在Nvidia NIM、Amazon SageMaker、Groq、Databricks和Snowflake上架。

来源:十轮网

相关推荐