Ollama 完全上手指南:在本地免费跑 DeepSeek、Llama 等大模型

把大模型跑在自己电脑上,在 2026 年已经不是什么发烧友才玩的事。Ollama 把这件事简化到了"装好、一行命令、开始对话"的程度。这篇是一份完整的上手指南:从安装、运行第一个模型,到用 API 接入自己的程序、按显存选模型,一篇讲清。

为什么要在本地跑模型

用在线的 ChatGPT、DeepSeek 网页版不香吗?多数时候香。但本地跑有几个无可替代的好处:

  • 隐私:数据不出本机。处理公司代码、敏感文档时,这一条往往是硬需求。
  • 免费且不限量:没有 token 计费,没有调用次数限制,随便用。
  • 离线可用:没网也能用,服务器在国内访问不了外网 API 时尤其有用。
  • 可集成:它提供本地 API,你可以把它接进自己的脚本、编辑器插件、自动化流程里。

代价是:本地模型的能力上限受你的硬件限制,和最顶级的云端模型还有差距。但对很多日常任务——总结、翻译、写脚本、改文案、问答——本地模型已经完全够用。

Ollama 是什么

Ollama 是一个本地大模型的"运行时 + 包管理器"。你可以把它类比成"大模型界的 Docker":它帮你把模型的下载、量化、加载、运行全部封装好,你不用关心底层那一堆复杂的依赖和参数,一行 ollama run 模型名 就能用。它支持 DeepSeek、Llama、Qwen、Gemma、Mistral 等几乎所有主流开源模型。

安装

# macOS / Linux 一行装好
curl -fsSL https://ollama.com/install.sh | sh
# Windows 到官网下载安装包即可

装完之后,Ollama 会作为一个后台服务运行,默认监听 localhost:11434 这个端口——后面用 API 调用就是冲着它去的。

拉取并运行你的第一个模型

不需要先"下载"再"运行"两步,ollama run 会自动处理:本地没有就先下载,下完直接进对话。

ollama run deepseek-r1        # 没有就自动下载,下完直接进入对话
ollama run llama3.2           # 换个模型同理
# 进入对话后,输入 /bye 退出

第一次运行某个模型会下载它的权重文件(几个 G 到几十个 G 不等),之后再运行就是秒进。进入对话后就是命令行版的聊天界面,输入 /bye 退出。

常用命令速查

ollama list                   # 看本地装了哪些模型
ollama pull qwen2.5           # 只下载,不运行
ollama rm llama3.2            # 删除一个模型,释放磁盘
ollama ps                     # 看当前正在跑的模型
ollama show deepseek-r1       # 看某个模型的参数信息

这几个命令覆盖了日常管理:看装了什么、下新的、删旧的、看在跑什么。模型文件挺占空间,ollama list 配合 ollama rm 定期清一清用不上的。

通过 API 调用 Ollama

Ollama 真正强的地方是它的本地 HTTP API——这意味着你能把本地模型接进任何程序。它有两套接口:一套是自己的原生接口,一套是兼容 OpenAI 格式的接口。

原生生成接口:

curl http://localhost:11434/api/generate -d '{"model":"deepseek-r1","prompt":"用一句话解释什么是事件循环","stream":false}'

OpenAI 兼容接口(重点):

curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"deepseek-r1","messages":[{"role":"user","content":"你好"}]}'

注意第二个接口的路径是 /v1/chat/completions——它和 OpenAI 官方 API 的格式完全一样。这意味着任何支持自定义 OpenAI 接口地址的工具(各种编辑器 AI 插件、聊天客户端、自动化框架),只要把 base URL 指向 http://localhost:11434/v1,就能无缝换成本地模型,代码一行不用改。

选模型:你的硬件能跑多大

模型能不能跑得动、跑得快,主要看显存(没有独显就看内存)。一个粗略的参照:

显存 / 内存 能舒服跑的模型规模 体验
8GB 以下 1.5B ~ 3B 的小模型 能跑,适合简单总结、翻译
8GB ~ 16GB 7B ~ 8B(主流甜点区) 日常任务流畅,性价比最高
16GB ~ 24GB 14B 左右 明显更聪明,复杂任务可用
24GB 以上 32B 及更大 接近可用的"主力"水平

建议:大多数人从 7B / 8B 量级的模型起步(比如 DeepSeek、Qwen、Llama 的 7~8B 版本),这是能力和硬件门槛平衡得最好的区间。Ollama 默认拉的就是量化过的版本,体积和显存占用都比原始权重小很多。

常见问题

跑起来很慢 / 很卡?多半是模型相对你的硬件太大了,换小一档的版本。另外确认 Ollama 用上了 GPU——纯 CPU 推理会慢很多。

模型文件存在哪、怎么换盘?默认在用户目录下,可以通过设置 OLLAMA_MODELS 环境变量改到空间更大的盘。

想让局域网内其他设备也能用?设置 OLLAMA_HOST=0.0.0.0 让它监听所有网卡,但要注意这等于把服务暴露出去了,只在可信网络里这么做。

本地模型和云端差多少?诚实说:复杂推理、长上下文、最新知识,云端顶级模型还是更强。但本地模型胜在隐私、免费、可控——分清任务,该用云用云、该用本地用本地。

写在最后

Ollama 把"本地跑大模型"的门槛降到了几乎为零。如果你还没试过,现在花十分钟:装好、ollama run 一个 7B 模型、和它聊两句、再用那个 OpenAI 兼容接口接进一个你常用的工具——你会发现"本地 AI"已经是个相当成熟、相当好用的选项了。

—— 别看了 · 2026
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理 邮箱1846861578@qq.com。
技术教程

彻底搞懂 JavaScript 事件循环(Event Loop):宏任务、微任务与执行顺序详解

2026-5-14 16:32:30

技术教程

HTTPS 到底加密了什么?从明文到密文的完整原理详解

2026-5-14 17:12:10

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索