主题
Ollama 本地部署
完全免费、离线运行、隐私安全——Ollama 让你在本机运行开源大模型。代价是需要一定的硬件投入。
为什么选择本地部署
- 零成本:不产生任何 API 费用
- 隐私安全:数据完全不出本机,适合涉密项目
- 离线可用:无需网络连接,飞机上也能写代码
- 无限调用:没有速率限制和配额限制
推荐模型
| 模型 | 参数量 | 推荐场景 | 最低内存 |
|---|---|---|---|
| Qwen3.5-Coder:32B | 32B | 代码生成 | 32GB |
| Devstral-24B | 24B | Agent / 工具调用 | 32GB |
| DeepSeek-R1:14B | 14B | 推理任务 | 16GB |
硬件要求
- 3-7B 模型:最低 16GB RAM,适合轻量任务和快速原型
- 32B 模型:推荐 32GB RAM,代码质量接近云端模型
- Apple Silicon (M 系列) 芯片对本地推理有很好的优化,推荐使用
配置步骤
1. 安装 Ollama
bash
# macOS
brew install ollama
# 或从官网下载:https://ollama.ai2. 拉取模型
bash
ollama pull qwen3.5-coder:32b
ollama pull deepseek-r1:14b3. 配置 OpenClaw
Ollama 的配置极为简单——OpenClaw 能自动发现已安装且支持工具调用的本地模型:
bash
# 设置一个任意值的 API Key(Ollama 本身不需要鉴权,但 OpenClaw 需要这个字段)
export OLLAMA_API_KEY=ollama-localOpenClaw 会自动检测本地运行的 Ollama 实例并列出可用模型。
不要使用 /v1 兼容 URL
OpenClaw 使用 Ollama 的原生 API,不要配置 /v1 的 OpenAI 兼容端点。这会导致工具调用等高级功能无法正常工作。
4. 验证
bash
# 查看 OpenClaw 发现的本地模型
openclaw models list注意事项
冷启动延迟
Ollama 在首次调用某个模型时需要将其加载到内存,这会产生明显的延迟(通常 10-30 秒)。建议:
- 提前运行
ollama run <model>预热模型 - 保持常用模型处于加载状态
- 在
~/.ollama/config中调整模型卸载超时时间
作为 Fallback 使用
本地模型特别适合作为 Fallback 链的兜底:
json
{
"agents": {
"defaults": {
"model": {
"primary": "anthropic/claude-sonnet-4-6",
"fallbacks": [
"deepseek/deepseek-chat",
"ollama/qwen3.5-coder:32b"
]
}
}
}
}云端 API 全部不可用时,本地模型保证你仍然能继续工作。
LM Studio 替代方案
LM Studio 也是本地部署的选择,使用 Llama.cpp 后端,提供图形界面管理模型。OpenClaw 创始人 Peter 个人也在使用 LM Studio。
LM Studio 的优势在于:
- 图形化界面,模型管理更直观
- 内置模型下载和量化选项
- 支持 OpenAI 兼容 API