在本地跑 DeepSeek-R1 是什么体验

用 Ollama 在本地跑模型的门槛比我想象的低。

ollama pull deepseek-r1:14b
ollama run deepseek-r1:14b

M3 Max (36GB) 上跑 14b 量化版，速度大概 25-35 token/秒。对于代码和推理任务，这个速度是可接受的，但明显比 API 慢。

R1 vs V3 的最大区别：R1 会”想出声”。它有一个 <think> 块，在给出最终答案前会先推理一遍。这个过程对复杂问题帮助很大，对简单对话就有点浪费了。

什么时候用本地 vs API：

一个意外收获：本地模型的内容过滤比 API 版本宽松很多。一些技术安全类的研究问题，本地版本可以直接讨论，API 版本会谨慎回避。

Ollama 的 modelfile 可以自定义 system prompt，让本地模型直接变成你自定义的 AI 助手。这个配合本地文档，能做出很有用的私人知识库。