DeepSeek V3 深度体验:国产大模型的真实水准

在自己的站点里跑了两个月 DeepSeek V3,说说它的真实表现、成本和适合的场景。


我在 andy-hub 的 chat-worker 里用 DeepSeek V3 做后端已经快两个月了。这是个偏实用的评测——不是 benchmark 对比,是真实使用场景下的体感。

背景:为什么选 DeepSeek

最开始选 DeepSeek 有三个原因:

  1. 成本。DeepSeek V3 API 的价格大概是 GPT-4o 的 1/10。我的站点是个人项目,AI 对话是附加功能,花太多钱在 token 上不值得。

  2. 中文能力。这是我自己的中文站,用户提问基本都是中文。DeepSeek 在中文理解和生成上很有竞争力。

  3. OpenAI 兼容。API 协议和 OpenAI 完全一样,换模型只需要改一行 baseURL

实际表现

日常对话和问答

在 RAG 场景下(检索我的文章片段,结合上下文回答问题),DeepSeek V3 的表现很稳定:

  • 能正确引用检索到的内容,不会凭空捏造
  • 拒绝回答它不知道的内容时,拒绝方式很自然(“我没写过这方面的内容”)
  • 中文回复的流畅度不逊色于 GPT-4o

我做了一个测试:问同一批问题,分别用 DeepSeek V3 和 GPT-4o mini 回答。结果几乎没有明显差异,但 DeepSeek 成本低了 70%。

代码能力

用 DeepSeek V3 写 TypeScript 和 Astro 代码,能处理中等复杂度的任务。它知道 Astro 5 的 Content Layer API,知道 Cloudflare Workers 的运行时限制——这让我有点惊讶,因为这些都是相对小众的技术栈。

但它在跨文件理解上比 Claude 弱。如果你给它一个函数问”这里有问题吗”,它很能干;如果你希望它理解整个项目的架构,就不如 Claude Code 了。

上下文长度

V3 的上下文窗口是 64K token,对于对话场景完全够用。我在 chat-worker 里设定的上下文限制是 8K(包含 RAG 片段 + 对话历史),从未碰到截断问题。

成本分析

两个月运行数据:

月份对话次数token 用量费用
3月~300~2.1M¥4.2
4月~410~2.8M¥5.6

这个体量下,每月 ¥5-6 是可以接受的。如果流量增加 10 倍,成本也只是 ¥50-60/月,仍然合理。

一个值得关注的局限

DeepSeek V3 的推理速度比 GPT-4o mini 慢一些。在我的 SSE 流式输出下,第一个 token 的延迟大概是 1.5-2 秒,整体生成速度大概是 50-80 token/秒。对于聊天场景够用,但如果你需要做实时性要求很高的应用,可能需要考虑。

另外,内容安全过滤相对保守。一些中性的技术问题有时会触发过滤,虽然调整 system prompt 通常能解决,但需要注意。

结论

DeepSeek V3 适合的场景:

  • 个人项目 / 低流量应用的 AI 后端
  • 中文为主的对话场景
  • 成本敏感的 RAG 应用
  • 作为 GPT-4o 的 drop-in replacement 试验

不那么适合的场景:

  • 需要超长上下文处理(>64K)
  • 对延迟极度敏感的实时应用
  • 需要视觉理解能力(V3 是纯文本模型)

对于我的 andy-hub,它是目前最合适的选择。¥5/月,够用,够快,中文够好。


注:本文评测基于 DeepSeek V3 API(deepseek-chat endpoint),2026年4月数据。DeepSeek 模型更新频繁,请以官方最新文档为准。


← all posts

Comments

Tip: select text in the article to add an inline annotation ✦