Skip to content

Ollama 本地部署

完全免费、离线运行、隐私安全——Ollama 让你在本机运行开源大模型。代价是需要一定的硬件投入。

为什么选择本地部署

  • 零成本:不产生任何 API 费用
  • 隐私安全:数据完全不出本机,适合涉密项目
  • 离线可用:无需网络连接,飞机上也能写代码
  • 无限调用:没有速率限制和配额限制
模型参数量推荐场景最低内存
Qwen3.5-Coder:32B32B代码生成32GB
Devstral-24B24BAgent / 工具调用32GB
DeepSeek-R1:14B14B推理任务16GB

硬件要求

  • 3-7B 模型:最低 16GB RAM,适合轻量任务和快速原型
  • 32B 模型:推荐 32GB RAM,代码质量接近云端模型
  • Apple Silicon (M 系列) 芯片对本地推理有很好的优化,推荐使用

配置步骤

1. 安装 Ollama

bash
# macOS
brew install ollama

# 或从官网下载:https://ollama.ai

2. 拉取模型

bash
ollama pull qwen3.5-coder:32b
ollama pull deepseek-r1:14b

3. 配置 OpenClaw

Ollama 的配置极为简单——OpenClaw 能自动发现已安装且支持工具调用的本地模型:

bash
# 设置一个任意值的 API Key(Ollama 本身不需要鉴权,但 OpenClaw 需要这个字段)
export OLLAMA_API_KEY=ollama-local

OpenClaw 会自动检测本地运行的 Ollama 实例并列出可用模型。

不要使用 /v1 兼容 URL

OpenClaw 使用 Ollama 的原生 API,不要配置 /v1 的 OpenAI 兼容端点。这会导致工具调用等高级功能无法正常工作。

4. 验证

bash
# 查看 OpenClaw 发现的本地模型
openclaw models list

注意事项

冷启动延迟

Ollama 在首次调用某个模型时需要将其加载到内存,这会产生明显的延迟(通常 10-30 秒)。建议:

  • 提前运行 ollama run <model> 预热模型
  • 保持常用模型处于加载状态
  • ~/.ollama/config 中调整模型卸载超时时间

作为 Fallback 使用

本地模型特别适合作为 Fallback 链的兜底:

json
{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-sonnet-4-6",
        "fallbacks": [
          "deepseek/deepseek-chat",
          "ollama/qwen3.5-coder:32b"
        ]
      }
    }
  }
}

云端 API 全部不可用时,本地模型保证你仍然能继续工作。

LM Studio 替代方案

LM Studio 也是本地部署的选择,使用 Llama.cpp 后端,提供图形界面管理模型。OpenClaw 创始人 Peter 个人也在使用 LM Studio。

LM Studio 的优势在于:

  • 图形化界面,模型管理更直观
  • 内置模型下载和量化选项
  • 支持 OpenAI 兼容 API

基于 MIT 协议发布