Gemma 4 与 DeepSeek V4 让长上下文大模型成本骤降

长上下文大模型的运行成本，过去两年虽然在下降，但曲线一直较为平缓。新一批开源大模型正在让这条曲线陡然下滑。Google DeepMind 的 Gemma 4 与 DeepSeek V4 是最显眼的两个例子：两者的每 token 推理成本都比上一代显著更低，背后依靠的是业内酝酿了一年多的架构创新。

推理成本，也就是模型每次响应提示所做的工作量，长期以来上升速度远快于上下文长度。一段 10 万 token 的对话，成本不是 100 token 对话的一千倍，而是接近一万倍——因为注意力机制每一步都要重新扫描整段对话。这套数学结构，过去把长上下文大模型变成只有闭源大厂才负担得起的奢侈功能。新的开源模型正在改写它。

核心是三项技术。键值共享是其中最成熟的一项，让模型的相邻层共用同一份过往 token 的记忆，而不是各自存一份。多头压缩把注意力头本身压缩到更小的表示空间，但不丢失它们关注的内容。压缩注意力走得更远：把对话中较早的部分总结后存储，而不是按原始分辨率全量保留——一个在讨论长文档第一页的模型，不需要把第一页的细节都记得清清楚楚。

这次结构性变化背后的数字，看美元比看 FLOPs 更清楚。Gemma 4 在 27B 参数规模上，处理一段百万 token 对话的成本，大约只有 Gemma 3 在同一硬件上的四分之一；DeepSeek V4 也把它的百万 token 上下文推到了去年 20 万 token 窗口的同等单次调用价位。这些不是发布会上的营销数字，而是独立基准测试针对开源权重 checkpoint 跑出来的结果。本地 AI 社区已经在消费级的 Strix Halo 主机和 RTX 5090 显卡上复现这些结果——而这些硬件在以前连旧版模型都不一定装得下。

这些技术都不是免费的午餐。每一项都在质量和效率之间做了取舍，开源团队对取舍的代价说得很清楚。压缩注意力在长程事实召回上可能精度下降——比如你让模型回忆 200 页合同第 12 页的内容。键值共享在某些需要相邻层各自不同视角的细粒度推理上，会损害效果。Gemma 4 与 DeepSeek V4 之所以做到现在的水平，是因为它们小心地组合这些技术，并针对真正关心的工作负载来调优。

对这个领域最清晰的梳理来自塞巴斯蒂安·拉什卡（Sebastian Raschka）。他最近的分析通览了近期半打开源模型的架构细节，把规律抽了出来。他的文章是把零散工程选择整理成趋势的那种综合性写作。他给出的结论很直白：便宜的长上下文时代已经到来，而它是通过架构创新实现的，不是通过算力暴力堆叠。

这种压力施加到闭源大厂身上的样子，更值得观察。Anthropic、OpenAI、Meta、xAI 不太可能对这套架构层的改动一无所知；真正未知的是他们是否早就在底层悄悄上了等价的实现，只是没拿出来讲。闭源厂商的公开 API 价格这两年也在降，但斜率没这么陡。闭源一方真正的风险，不是开源模型在原始能力上追上来——往往并没有——而是它们让闭源厂商的高端 tier 在越来越多的使用场景里显得”不是必需品”。当一份同样的工作可以在一台四千美元的桌面机上用 Gemma 4 完成，也可以付两百美元一个月的企业 API，那张 API 价目表就不再是自证合理。

对在自己硬件上运行模型的人——本地 AI 爱好者、付不起企业 API 费用的小公司、没有云预算的研究者——一年前还遥不可及的工作负载，现在可以做了。百万 token 的上下文窗口，不再是最贵商用 API 的专属。如果开源模型能以闭源模型一小部分的运营成本提供相当的长上下文性能，闭源方案的价格也得跟着下来。

下游影响会蔓延到 AI 基础设施栈的其他环节。向量数据库厂商和 RAG 初创公司当初的商业模型，建立在一个假设上：长上下文永远会贵到让外置检索成为显然更划算的方案。当成本曲线翻转，把一份 200 页合同或一年的邮件直接塞进上下文里，从架构上反而比”切块—嵌入—检索”这条管线更简单。GPU 厂商面临的是相反的问题：他们在内存受限工作负载上的利润空间，会随着 KV 共享和压缩注意力把每次查询的显存需求拉下来而被压缩。跑得最快的几个团队，已经在按照”长上下文便宜且可挥霍”的环境去设计产品，而不再把它当作要塞在企业级 SKU 后面的奢侈功能。

接下来的开源发布会检验这股趋势能走多远。已有几个研究组透露在尝试把三项技术与稀疏注意力结合起来，这是下一步的明显方向，今年夏天预计还有至少两篇论文会再把成本曲线往下推一截。闭源大厂会用公布自己的方法回应，还是悄悄采用开源那套，是接下来值得盯的问题。

标签: DeepSeek, Google DeepMind, DeepSeek V4, Gemma 4, Sebastian Raschka, 大语言模型