重磅!微软开源最强小模型Phi-4,超GPT-4o、可商用

360影视 2025-01-24 21:21 2

摘要:在GPQA研究生水平、MATH数学基准测试中,超过了OpenAI的GPT-4o,也超过了同类顶级开源模型Qwen 2.5 -14B和Llama-3.3-70B。在美国数学竞赛AMC的测试中phi-4更是达到了91.8分,超过了Gemini Pro 1.5、GP

微软近日(1 月 8 日)在 Hugging Face 平台上,开源小语言模型 Phi-4,感兴趣的可以下载、微调和部署该 AI 模型。

模型概况

架构:拥有140亿参数,是密集的仅解码器的Transformer模型。

输入:以文本形式输入,最适合用于聊天格式的提示。

上下文长度:可处理长达16K个token的上下文。

训练硬件:使用了1920个H100-80G的GPU进行训练。

训练时间:训练耗时21天。

适用场景

目前英文支持比较好,让内存/计算受限的计算机(个人电脑和笔记本电脑等)本地运行具备推理和逻辑能力的通用AI系统和应用。

模型得分

在GPQA研究生水平、MATH数学基准测试中,超过了OpenAI的GPT-4o,也超过了同类顶级开源模型Qwen 2.5 -14B和Llama-3.3-70B。在美国数学竞赛AMC的测试中phi-4更是达到了91.8分,超过了Gemini Pro 1.5、GPT-4o、Claude 3.5 Sonnet、Qwen 2.5等知名开闭源模型,甚至整体性能可以与4050亿参数的Llama-3.1媲美。

使用方法

import transformerspipeline = transformers.pipeline( "text-generation", model="microsoft/phi-4", model_kwargs={"torch_dtype": "auto"}, device_map="auto",)messages = [ {"role": "system", "content": "You are a medieval knight and must provide explanations to modern people."}, {"role": "user", "content": "How should I explain the Internet?"},]outputs = pipeline(messages, max_new_tokens=128)print(outputs[0]["generated_text"][-1])

模型地址

来源:编程乐趣

相关推荐