技术速递|新手指南:如何在 Foundry Local 中使用自定义模型

360影视 日韩动漫 2025-08-30 08:40 1

摘要:Foundry Local 是一款用户友好的工具,能够让你在 Windows 或 Mac 电脑上直接运行小型 AI 语言模型。你可以把它理解为在本地运行的个人版 ChatGPT,不需要互联网连接,也无需将数据发送到外部服务器。

M

作者:卢建晖 - 微软高级云技术布道师

什么是 Foundry Local?

Foundry Local 是一款用户友好的工具,能够让你在 Windows 或 Mac 电脑上直接运行小型 AI 语言模型。你可以把它理解为在本地运行的个人版 ChatGPT,不需要互联网连接,也无需将数据发送到外部服务器。

目前,Foundry Local 已经很好地支持多个流行的模型系列:

Phi 模型(微软推出的小而强大的模型)

Qwen 模型(阿里推出的多语言模型)

DeepSeek 模型(高效推理模型)

在本教程中,我们将一步一步学习如何设置 Qwen3-0.6B模型。即使你是 AI 新手也不用担心——我们会在过程中把一切都讲清楚!

为什么我们需要转换 AI 模型?

从 AI Toolkit 模型目录将 gpt-oss-20b 部署到本地环境

当你从 Hugging Face(可以把它理解为 AI 模型的 GitHub)这类网站下载 AI 模型时,它们通常是 PyTorch 格式。PyTorch 在训练模型时非常好用,但并不是在个人电脑上运行的最佳格式。

为了让这些模型在你的笔记本或台式机上更高效地运行,我们需要:

格式转换—— 把它转成电脑能更快运行的格式

模型压缩—— 让模型更小,占用更少的内存和存储空间

在转换时,我们主要会用到两种格式:

GGUF vs ONNX:该选哪种格式?

可以把它们理解为电脑能理解的两种不同“语言”。既然我们要运行的是小型语言模型(比如 Qwen3-0.6B),那我们来看看哪种更适合你的需求。

GGUF(GPT-Generated Unified Format)

最适合:基础电脑、简单环境,或者想要极简体验的人

优点

内存超省—— 通过智能压缩大幅减少 RAM 占用

单文件—— 所有内容都在一个文件里(不需要复杂的文件夹结构)

工具简单—— 兼容 llama.cpp 等常见工具

上手快—— 配置要求更少

缺点

体积影响—— 对小模型来说,额外的“开销”比例更大

灵活性有限—— 只能运行特定类型的 AI 模型(基于 transformer 的模型)

ONNX(Open Neural Network Exchange)

最适合:现代电脑、追求最佳性能,或者专业用途

优点

兼容性强—— 支持多种不同类型和结构的 AI 模型

硬件加速—— 能利用显卡(GPU)或专用 AI 芯片(NPU),性能大幅提升

专业级—— 被广泛应用于企业生产环境

转换灵活—— 几乎能从任意训练框架转换过来

移动端友好—— 在手机和平板上也有很好的支持

⚙️ 智能优化—— ONNX Runtime 自动帮你提升运行速度

缺点

结构复杂—— 需要管理多个文件和文件夹

文件更大—— 占用更多存储空间

配置更多—— 需要做一些额外设置才能运行

新手推荐

在本教程中,我们将使用 ONNX,原因是:

✅ 在大多数现代电脑上性能最佳

✅ 之后你可以选择升级到 GPU 加速

✅ 它是业界标准,在大多数 AI 项目中都会遇到

✅ Foundry Local 对 ONNX 模型支持非常好

Microsoft Olive 就像一个聪明的助手,帮你完成 AI 模型的转换工作。与其手动执行繁琐的技术步骤,Olive 会自动化完成并确保一切正确无误。

Olive 的特别之处:

兼容各种电脑—— 不论是基础笔记本,还是带强大显卡的高配主机

自动化操—— 无需学习复杂的转换命令

多种压缩选项—— 可以用不同方式缩小模型(INT4、INT8、FP16 —— 这些术语不用担心,现在知道就行)

良好兼容性—— 能和你可能使用的其他 AI 工具无缝配合

逐步指南:一起来转换你的模型

别担心,即使你从来没有做过这个操作——我们也会一步一步仔细讲解!

步骤 1:安装所需工具

首先,我们需要安装一些软件工具。你可以把它理解为在手机上下载应用程序——每个工具都有特定的作用,用来帮助我们完成模型转换。

打开你的终端(Windows 上是 命令提示符,Mac 上是 Terminal),然后依次运行以下命令:

# This updates the main AI library to the latest versionpip install transformers -U# This installs Microsoft Olive (our conversion helper)pip install git+https://github.com/microsoft/Olive.git# This downloads and installs additional AI toolsgit clone https://github.com/microsoft/onnxruntime-genaicd onnxruntime-genai && python build.py --config Releasepip install {Your build release path}/onnxruntime_genai-0.9.0.dev0-cp311-cp311-linux_x86_64.whl

重要提示: 你还需要cmake 3.31 或更高版本。如果没有,可以从 cmake.org 下载。

cmake.org

https://cmake.org/?wt.mc_id=3reg_webpage_reactor

步骤 2:最简单的方法 —— 一条命令完成转换

当一切安装完成后,转换模型其实非常简单!只需要运行下面这条命令即可(注意:把 {Your Qwen3-0.6B Path}替换为你下载模型的实际路径):

olive auto-opt \ --model_name_or_path {Your Qwen3-0.6B Path} \ --device cpu \ --provider CPUExecutionProvider \ --use_model_builder \ --precision int4 \ --output_path models/Qwen3-0.6B/onnx \ --log_level 1

这条命令是做什么的?

--device cpu表示我们要针对电脑的处理器进行优化

--precision int4让模型更小(大约能减少75% 的体积!)

--output_path告诉 Olive 要把转换好的模型保存到哪里

步骤 3:进阶方法 —— 使用配置文件

如果你想要更多自定义控制,可以创建一个 配置文件。你可以把它理解为一份“食谱”,用来告诉 Olive 具体要如何转换模型。

新建一个名为 conversion_config.JSON的文件,并写入以下内容:

"input_model": { "type": "HfModel", "model_path": "Qwen/Qwen3-0.6B", "task": "text-generation" }, "systems": { "local_system": { "type": "LocalSystem", "accelerators": [ { "execution_providers": [ "CPUExecutionProvider" ] } ] } }, "passes": { "builder": { "type": "ModelBuilder", "config": { "precision": "int4" } } }, "host": "local_system", "target": "local_system", "cache_dir": "cache", "output_dir": "model/output/Qwen3-0.6B-ONNX"

然后运行这条命令:

olive run --config ./conversion_config.json

开始之前: 如果这是你第一次从 Hugging Face 下载模型,你需要先登录:

huggingface-cli login

系统会要求你输入 Hugging Face 的 token(可以在 Hugging Face 官网免费获取)。

在 Foundry Local 中设置转换后的模型

很好!现在你已经有了一个转换好的模型,接下来我们把它运行在 Foundry Local中。可以把这个过程理解为在电脑上安装一个新应用。

你需要

✅ 已经在电脑上安装好 Foundry Local

✅ 通过前面步骤得到的 ONNX 转换模型

✅ 几分钟时间来完成设置

开始操作

首先,我们需要进入 Foundry Local 存放模型的目录:

foundry cache cd ./models/

这条命令会带你进入“模型文件夹” —— 你可以把它理解为 AI 模型的应用商店

步骤 1:创建聊天模板

AI 模型需要知道如何组织对话格式,这就像教它们聊天的“语法规则”。

"PromptTemplate": { "user": "user\n/think{Content}", "assistant": "assistant\n{Content}", "prompt": "user\n/think{Content}\nassistant"

“think” 是什么?

Qwen 模型有一个特别的功能,可以在回答之前 “大声思考”。就像在数学课上写出解题过程一样!这通常能带来更好、更有逻辑的回答。

如果你不想启用这个功能,只需要在上面的模板中去掉 /think即可。

步骤 2:整理文件

为模型创建一个清晰的文件夹结构,这样能帮助 Foundry Local 更容易找到所有内容:

# 为模型创建文件夹

mkdir -p ./models/qwen/Qwen3-0.6B

# 把转换后的文件复制到这里

# (需要把 ONNX 文件和 inference_model.json 一起移动到这个文件夹里)

为什么要这样?

qwen= 模型开发公司

Qwen3-0.6B= 具体的模型名称

步骤 3:检查是否成功

我们来验证一下 Foundry Local 是否能识别到新模型:

foundry cache ls

你应该能在列表里看到 Qwen3-0.6b-cpu。如果没有,请仔细检查文件是否放在了正确的位置。

步骤 4:试运行!

关键时刻到了 —— 让我们和模型开始聊天吧:

foundry model run Qwen3-0.6b-cpu

如果一切正常,你会看到模型启动,然后就可以开始向它提问啦!

故障排查:当事情不按计划进行时

别担心,如果遇到问题,这是很正常的!以下是最常见的问题及解决方法:

发生原因:Foundry Local 找不到你的模型文件

解决方法

仔细检查文件是否放在正确的文件夹:./models/qwen/Qwen3-0.6B/

确保 inference_model.json文件与 ONNX 文件在同一文件夹内

检查 JSON 文件中的模型名称是否与运行命令中的名称一致

问题:模型启动了,但回答奇怪

发生原因:聊天模板可能没有正确设置

解决方法

问题:模型运行很慢

发生原因:电脑可能比需要的更辛苦地工作

解决方法

关闭其他程序释放内存

如果有性能不错的显卡,尝试使用 GPU 版本而非 CPU

如果性能仍然不理想,可以考虑使用更小的模型

问题:安装命令失败

发生原因: 安装过程中出现问题

解决方法

确保已安装 Python(版本 3.8 或更高)

尝试一次执行一条命令,而不是一次性运行所有命令

检查网络连接 —— 有些下载文件比较大

恭喜!你成功啦!

你已经成功:

✅ 了解了模型格式的区别

✅ 将 PyTorch 模型转换为 ONNX 格式

✅ 搭建了属于自己的本地 AI 助手

✅ 在个人电脑上成功运行模型

有疑问或遇到问题?AI Discord 社区非常有帮助 —— 不要犹豫,在论坛或 Foundry Local 仓库里寻求帮助吧。

AI Discord 社区

https://discord.com/invite/7H4DVqdMGe/?wt.mc_id=3reg_webpage_reactor

Foundry Local 仓库

https://github.com/microsoft/foundry-Local/?wt.mc_id=3reg_webpage_reactor

卢建晖

微软高级云技术布道师

专注在 AI + Data,著有超过 70 万阅读量的 《Phi-3 Cookbook》。

新浪微博|微软中国MSDN

来源:opendotnet

相关推荐