Ollama:在自己电脑里跑大模型,就像装了个本地版 ChatGPT

360影视 动漫周边 2025-09-09 10:37 1

摘要:这两年大模型火得不行,大家都在用 ChatGPT、Claude、文心一言、Kimi。可是有个问题:要么得联网,要么得交钱,要么担心数据被上传。

这两年大模型火得不行,大家都在用 ChatGPT、Claude、文心一言、Kimi。可是有个问题:要么得联网,要么得交钱,要么担心数据被上传。

一句话:Ollama 就是让你在本地跑大模型,像用 ChatGPT 一样简单

不用折腾环境,不用下载一堆奇怪的依赖。直接一行命令就能运行模型,比如:ollama run llama2

然后,你的电脑就变成了一个“小型大模型超市”,随时可以聊天、写作、问答。

简单到离谱别的推理框架要配 CUDA、装库、编译源码。Ollama:一行命令就开跑。完全在本地模型下载到你电脑上,跑在 CPU/GPU 里。聊天记录不会上传,数据更安全。支持一堆热门模型LLaMA 2、Mistral、Gemma、Phi……都能直接用。甚至还能从 Hugging Face 把模型拉进来跑。像 API 一样调用Ollama 内置了 REST API。你可以在 Python、JS 里像调用 OpenAI 一样调用它,非常方便。curl -fsSL https://ollama.com/install.sh | sh

Windows 也提供了 MSI 安装包。

安装完成后,你可以直接运行一个模型,例如 LLaMA 2:

Ollama 会自动下载模型,并进入交互式对话。

如果你想用 Python 代码调用,可以这样写:

import requestsresponse = requests.post("http://localhost:11434/api/generate", json={"model": "llama2","prompt": "用一句话介绍 Ollama"})for line in response.iter_lines:if line:print(line.decode("utf-8"))

效果就像在本地拥有了一个“OpenAI API”,无需联网。

vLLM:适合大规模服务部署,企业用得多。llama.cpp:轻量级,但要自己折腾编译和参数。Ollama:最简单,面向普通用户和开发者。特点OllamavLLMllama.cpp定位本地推理 + 开发者友好接口高性能服务端推理轻量化推理引擎部署复杂度⭐ 非常低(开箱即用)⭐⭐⭐ 较高(需配置环境)⭐⭐ 需要编译与参数配置模型支持LLaMA/Mistral/Gemma 等常见模型Hugging Face 绝大多数模型GGUF/GGML 格式模型API 支持✅ 内置 REST API✅ 提供 OpenAI 风格 API❌ 无原生 API适合场景本地应用、原型开发、隐私场景企业级部署、云端推理轻量运行、嵌入式环境

可以这么理解:
Ollama = 本地 ChatGPT,随开随用;
vLLM = 专业版推理引擎,适合服务器和大厂;
llama.cpp = 工具箱,适合动手能力强的极客。

Ollama 就是最合适的选择

官方网站:https://ollama.com
GitHub 仓库:https://github.com/ollama/ollama

来源:我不写代码

相关推荐