EN CN
上海

在本地跑 DeepSeek-R1 是什么体验

用 Ollama 在本地跑模型的门槛比我想象的低。

ollama pull deepseek-r1:14b
ollama run deepseek-r1:14b

M3 Max (36GB) 上跑 14b 量化版,速度大概 25-35 token/秒。对于代码和推理任务,这个速度是可接受的,但明显比 API 慢。

R1 vs V3 的最大区别:R1 会”想出声”。它有一个 <think> 块,在给出最终答案前会先推理一遍。这个过程对复杂问题帮助很大,对简单对话就有点浪费了。

什么时候用本地 vs API

  • 本地:不想把代码上传、需要处理私密信息、反复测试 prompt
  • API:速度要求高、模型要更新、有稳定 token 预算

一个意外收获:本地模型的内容过滤比 API 版本宽松很多。一些技术安全类的研究问题,本地版本可以直接讨论,API 版本会谨慎回避。

Ollama 的 modelfile 可以自定义 system prompt,让本地模型直接变成你自定义的 AI 助手。这个配合本地文档,能做出很有用的私人知识库。