DeepSeek V3 深度体验:国产大模型的真实水准
在自己的站点里跑了两个月 DeepSeek V3,说说它的真实表现、成本和适合的场景。
我在 andy-hub 的 chat-worker 里用 DeepSeek V3 做后端已经快两个月了。这是个偏实用的评测——不是 benchmark 对比,是真实使用场景下的体感。
背景:为什么选 DeepSeek
最开始选 DeepSeek 有三个原因:
-
成本。DeepSeek V3 API 的价格大概是 GPT-4o 的 1/10。我的站点是个人项目,AI 对话是附加功能,花太多钱在 token 上不值得。
-
中文能力。这是我自己的中文站,用户提问基本都是中文。DeepSeek 在中文理解和生成上很有竞争力。
-
OpenAI 兼容。API 协议和 OpenAI 完全一样,换模型只需要改一行
baseURL。
实际表现
日常对话和问答
在 RAG 场景下(检索我的文章片段,结合上下文回答问题),DeepSeek V3 的表现很稳定:
- 能正确引用检索到的内容,不会凭空捏造
- 拒绝回答它不知道的内容时,拒绝方式很自然(“我没写过这方面的内容”)
- 中文回复的流畅度不逊色于 GPT-4o
我做了一个测试:问同一批问题,分别用 DeepSeek V3 和 GPT-4o mini 回答。结果几乎没有明显差异,但 DeepSeek 成本低了 70%。
代码能力
用 DeepSeek V3 写 TypeScript 和 Astro 代码,能处理中等复杂度的任务。它知道 Astro 5 的 Content Layer API,知道 Cloudflare Workers 的运行时限制——这让我有点惊讶,因为这些都是相对小众的技术栈。
但它在跨文件理解上比 Claude 弱。如果你给它一个函数问”这里有问题吗”,它很能干;如果你希望它理解整个项目的架构,就不如 Claude Code 了。
上下文长度
V3 的上下文窗口是 64K token,对于对话场景完全够用。我在 chat-worker 里设定的上下文限制是 8K(包含 RAG 片段 + 对话历史),从未碰到截断问题。
成本分析
两个月运行数据:
| 月份 | 对话次数 | token 用量 | 费用 |
|---|---|---|---|
| 3月 | ~300 | ~2.1M | ¥4.2 |
| 4月 | ~410 | ~2.8M | ¥5.6 |
这个体量下,每月 ¥5-6 是可以接受的。如果流量增加 10 倍,成本也只是 ¥50-60/月,仍然合理。
一个值得关注的局限
DeepSeek V3 的推理速度比 GPT-4o mini 慢一些。在我的 SSE 流式输出下,第一个 token 的延迟大概是 1.5-2 秒,整体生成速度大概是 50-80 token/秒。对于聊天场景够用,但如果你需要做实时性要求很高的应用,可能需要考虑。
另外,内容安全过滤相对保守。一些中性的技术问题有时会触发过滤,虽然调整 system prompt 通常能解决,但需要注意。
结论
DeepSeek V3 适合的场景:
- 个人项目 / 低流量应用的 AI 后端
- 中文为主的对话场景
- 成本敏感的 RAG 应用
- 作为 GPT-4o 的 drop-in replacement 试验
不那么适合的场景:
- 需要超长上下文处理(>64K)
- 对延迟极度敏感的实时应用
- 需要视觉理解能力(V3 是纯文本模型)
对于我的 andy-hub,它是目前最合适的选择。¥5/月,够用,够快,中文够好。
注:本文评测基于 DeepSeek V3 API(deepseek-chat endpoint),2026年4月数据。DeepSeek 模型更新频繁,请以官方最新文档为准。
评论
0 条还没有评论,来第一个留言吧。