DeepSeek V3 深度体验：国产大模型的真实水准

在自己的站点里跑了两个月 DeepSeek V3，说说它的真实表现、成本和适合的场景。

我在 andy-hub 的 chat-worker 里用 DeepSeek V3 做后端已经快两个月了。这是个偏实用的评测——不是 benchmark 对比，是真实使用场景下的体感。

背景：为什么选 DeepSeek

最开始选 DeepSeek 有三个原因：

在 RAG 场景下（检索我的文章片段，结合上下文回答问题），DeepSeek V3 的表现很稳定：

我做了一个测试：问同一批问题，分别用 DeepSeek V3 和 GPT-4o mini 回答。结果几乎没有明显差异，但 DeepSeek 成本低了 70%。

用 DeepSeek V3 写 TypeScript 和 Astro 代码，能处理中等复杂度的任务。它知道 Astro 5 的 Content Layer API，知道 Cloudflare Workers 的运行时限制——这让我有点惊讶，因为这些都是相对小众的技术栈。

但它在跨文件理解上比 Claude 弱。如果你给它一个函数问”这里有问题吗”，它很能干；如果你希望它理解整个项目的架构，就不如 Claude Code 了。

V3 的上下文窗口是 64K token，对于对话场景完全够用。我在 chat-worker 里设定的上下文限制是 8K（包含 RAG 片段 + 对话历史），从未碰到截断问题。

两个月运行数据：

月份	对话次数	token 用量	费用
3月	~300	~2.1M	¥4.2
4月	~410	~2.8M	¥5.6

这个体量下，每月 ¥5-6 是可以接受的。如果流量增加 10 倍，成本也只是 ¥50-60/月，仍然合理。

DeepSeek V3 的推理速度比 GPT-4o mini 慢一些。在我的 SSE 流式输出下，第一个 token 的延迟大概是 1.5-2 秒，整体生成速度大概是 50-80 token/秒。对于聊天场景够用，但如果你需要做实时性要求很高的应用，可能需要考虑。

另外，内容安全过滤相对保守。一些中性的技术问题有时会触发过滤，虽然调整 system prompt 通常能解决，但需要注意。

DeepSeek V3 适合的场景：

不那么适合的场景：

对于我的 andy-hub，它是目前最合适的选择。¥5/月，够用，够快，中文够好。

注：本文评测基于 DeepSeek V3 API（deepseek-chat endpoint），2026年4月数据。DeepSeek 模型更新频繁，请以官方最新文档为准。