把大模型跑在自己电脑上,在 2026 年已经不是什么发烧友才玩的事。Ollama 把这件事简化到了"装好、一行命令、开始对话"的程度。这篇是一份完整的上手指南:从安装、运行第一个模型,到用 API 接入自己的程序、按显存选模型,一篇讲清。
为什么要在本地跑模型
用在线的 ChatGPT、DeepSeek 网页版不香吗?多数时候香。但本地跑有几个无可替代的好处:
- 隐私:数据不出本机。处理公司代码、敏感文档时,这一条往往是硬需求。
- 免费且不限量:没有 token 计费,没有调用次数限制,随便用。
- 离线可用:没网也能用,服务器在国内访问不了外网 API 时尤其有用。
- 可集成:它提供本地 API,你可以把它接进自己的脚本、编辑器插件、自动化流程里。
代价是:本地模型的能力上限受你的硬件限制,和最顶级的云端模型还有差距。但对很多日常任务——总结、翻译、写脚本、改文案、问答——本地模型已经完全够用。
Ollama 是什么
Ollama 是一个本地大模型的"运行时 + 包管理器"。你可以把它类比成"大模型界的 Docker":它帮你把模型的下载、量化、加载、运行全部封装好,你不用关心底层那一堆复杂的依赖和参数,一行 ollama run 模型名 就能用。它支持 DeepSeek、Llama、Qwen、Gemma、Mistral 等几乎所有主流开源模型。
安装
# macOS / Linux 一行装好 curl -fsSL https://ollama.com/install.sh | sh # Windows 到官网下载安装包即可
装完之后,Ollama 会作为一个后台服务运行,默认监听 localhost:11434 这个端口——后面用 API 调用就是冲着它去的。
拉取并运行你的第一个模型
不需要先"下载"再"运行"两步,ollama run 会自动处理:本地没有就先下载,下完直接进对话。
ollama run deepseek-r1 # 没有就自动下载,下完直接进入对话 ollama run llama3.2 # 换个模型同理 # 进入对话后,输入 /bye 退出
第一次运行某个模型会下载它的权重文件(几个 G 到几十个 G 不等),之后再运行就是秒进。进入对话后就是命令行版的聊天界面,输入 /bye 退出。
常用命令速查
ollama list # 看本地装了哪些模型 ollama pull qwen2.5 # 只下载,不运行 ollama rm llama3.2 # 删除一个模型,释放磁盘 ollama ps # 看当前正在跑的模型 ollama show deepseek-r1 # 看某个模型的参数信息
这几个命令覆盖了日常管理:看装了什么、下新的、删旧的、看在跑什么。模型文件挺占空间,ollama list 配合 ollama rm 定期清一清用不上的。
通过 API 调用 Ollama
Ollama 真正强的地方是它的本地 HTTP API——这意味着你能把本地模型接进任何程序。它有两套接口:一套是自己的原生接口,一套是兼容 OpenAI 格式的接口。
原生生成接口:
curl http://localhost:11434/api/generate -d '{"model":"deepseek-r1","prompt":"用一句话解释什么是事件循环","stream":false}'
OpenAI 兼容接口(重点):
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"deepseek-r1","messages":[{"role":"user","content":"你好"}]}'
注意第二个接口的路径是 /v1/chat/completions——它和 OpenAI 官方 API 的格式完全一样。这意味着任何支持自定义 OpenAI 接口地址的工具(各种编辑器 AI 插件、聊天客户端、自动化框架),只要把 base URL 指向 http://localhost:11434/v1,就能无缝换成本地模型,代码一行不用改。
选模型:你的硬件能跑多大
模型能不能跑得动、跑得快,主要看显存(没有独显就看内存)。一个粗略的参照:
| 显存 / 内存 | 能舒服跑的模型规模 | 体验 |
|---|---|---|
| 8GB 以下 | 1.5B ~ 3B 的小模型 | 能跑,适合简单总结、翻译 |
| 8GB ~ 16GB | 7B ~ 8B(主流甜点区) | 日常任务流畅,性价比最高 |
| 16GB ~ 24GB | 14B 左右 | 明显更聪明,复杂任务可用 |
| 24GB 以上 | 32B 及更大 | 接近可用的"主力"水平 |
建议:大多数人从 7B / 8B 量级的模型起步(比如 DeepSeek、Qwen、Llama 的 7~8B 版本),这是能力和硬件门槛平衡得最好的区间。Ollama 默认拉的就是量化过的版本,体积和显存占用都比原始权重小很多。
常见问题
跑起来很慢 / 很卡?多半是模型相对你的硬件太大了,换小一档的版本。另外确认 Ollama 用上了 GPU——纯 CPU 推理会慢很多。
模型文件存在哪、怎么换盘?默认在用户目录下,可以通过设置 OLLAMA_MODELS 环境变量改到空间更大的盘。
想让局域网内其他设备也能用?设置 OLLAMA_HOST=0.0.0.0 让它监听所有网卡,但要注意这等于把服务暴露出去了,只在可信网络里这么做。
本地模型和云端差多少?诚实说:复杂推理、长上下文、最新知识,云端顶级模型还是更强。但本地模型胜在隐私、免费、可控——分清任务,该用云用云、该用本地用本地。
写在最后
Ollama 把"本地跑大模型"的门槛降到了几乎为零。如果你还没试过,现在花十分钟:装好、ollama run 一个 7B 模型、和它聊两句、再用那个 OpenAI 兼容接口接进一个你常用的工具——你会发现"本地 AI"已经是个相当成熟、相当好用的选项了。
—— 别看了 · 2026