比Opus 4.6低两分却便宜五倍：Gemini 3.5 Flash重写这道账

谷歌在周一以每百万输入token 1.5美元、每百万输出token 9美元的价格推出了Gemini 3.5 Flash。新模型保持每秒280个以上的输出token，沿用与前代相同的百万级token上下文窗口，在Artificial Analysis Intelligence Index上落到55分，比Gemini 3 Flash高出9分。到周二上午，一条r/Anthropic的帖子已经把图表并排放在了Claude Opus 4.6旁边，提出了这个市场绕了六个月的问题：在哪个点上，基准测试两分的领先不再值得五倍的价格？

Intelligence Index把推理、知识、编码、数学和Agent任务完成的一系列公开评测，汇总为1到100的单一分数。自适应推理模式下的Claude Opus 4.6停在57。5月19日发布的Gemini 3.5 Flash停在55。版本间九分的跳跃，是Flash在一代内记录的最大单步进步，足以让新模型在原始智能上追平Anthropic上一代的Sonnet，价格却只是Sonnet的一小部分。

Reddit帖子用的「更聪明」框架，把差距朝着Flash一边拉得过开了。在纯Intelligence Index上，Opus 4.6仍然领先两分。把帖子点爆的那张图，不是孤立的Intelligence Index。它是智能效率对成本的视图，那个轴在做另一份工作；在那里，Flash 3.5不仅仅是赢过Opus 4.6，它停在了附近没有别人的等级里。

Opus 4.6每百万输入token要价大约6.25美元，每百万输出25美元。Flash要价1.5和9。对一份输出与输入二比一的聊天负载，实际价格比更接近4.5倍，而不是帖子标题里那个圆整的「五倍」。这种取整是诚实的。速度让旗舰的画面更难看：Flash 3.5每秒维持280个以上的输出token，而Opus 4.6在最大努力推理模式下，在同一套基准上跑得只有这速度的大约十分之一。对于用户盯着光标的那类产品 — 编码助手、客服Agent、任何交互流程 — 延迟是一项价格回购不了的功能。

一年前，买最贵那台模型的论据一行就够。下一档的质量跃迁足够大，价格差只是相对所交付价值的一个舍入误差。帖子贴上来的那张图，是另一张图。最后两个智能分的边际成本，已经变成了生产负载的整个价格决定，而舍入误差现在更接近每花六美元里就有4.75美元。

把Opus 4.6留在技术栈里仍然有一条干净的理由。几百页的长上下文推理；错误会逐步累积的Agent循环；汇总分上两分差距背后藏着大得多的任务级优势的文档分析。当失效模式是「答案错了」而不是「答案迟了」时，Opus仍然是工程师会去找的模型。看起来是这种形态的生产负载份额在缩。它不是零，而且正是每百万25美元为自己赚薪水的那一段。

推动大部分可计费token的聊天回合 — 起草、摘要、分类、翻译、代码自动补全、面向客户的推理 — 全都在Flash的射程之内。工程团队每个季度问的那个问题，已经不再是「哪一台模型最好」。而是「在可接受的延迟下，每一美元哪一台模型给得最多」。第二个问题，Flash现在以一个不需要细腻解读的差距赢下。

帖子里的二级框架，「到处都共识Opus 4.6比4.7好」，值得更温和的对待。它是轶事。Anthropic最近两个Opus版本在代码评测和工具使用严谨度上获得分裂的反馈，有团队报告4.7在长Agent循环上出现回退，也有团队报告在相同负载上获得干净的胜利。当行为在小版本间多个维度被调整时，两种观察可以同时为真。两个模型在公开指数上还相距不到一分，所以社区的分裂更像口味之争而非能力之争。不在争论之内的是，两个Opus中任何一个的价格都没动。

Reddit对话里更深的信号，是用户没在争的东西。帖子里没有人在原则层面替Opus的价格辩护。冒出来的辩护是负载特定的。「Opus在我这条Agent循环里还在赢我」。「Opus留在我们的文档审查pipeline里」。它们都是真的，但是负载辩护，不是旗舰辩护。旗舰应该在频谱上赢，不只是在某一条车道上。

智能差两分。价格五倍。反方向上速度六倍。百万级token的上下文窗口，每百万输入1.5美元。多模态输入，Agent任务Elo超过1650，缓存输入九折。Anthropic下个季度的回应会讲它自己的故事。2026年5月更难写的，是销售人员要带进客户会议的那段论据。

标签: 人工智能, Google, tech-en1, Anthropic, Artificial Analysis, Claude Opus 4.6

比Opus 4.6低两分却便宜五倍：Gemini 3.5 Flash重写这道账

更多类似内容

OpenAI新语音模型把推理放进音频回路本身，过去暴露AI身份的那段沉默不见了

Claude Opus 4.8 自查代码错误的数量提升至四倍

谷歌 Pixel 11 Pro：涨价、升级有限，而它主打的 AI 在基础版上跑不全

Gemma 4 与 DeepSeek V4 让长上下文大模型成本骤降

谷歌构建的AI云正在推高自家手机的价格

AI的边界成本降低了83%——如果你愿意自己部署的话

讨论