技术

比Opus 4.6低两分却便宜五倍:Gemini 3.5 Flash重写这道账

Susan Hill

谷歌在周一以每百万输入token 1.5美元、每百万输出token 9美元的价格推出了Gemini 3.5 Flash。新模型保持每秒280个以上的输出token,沿用与前代相同的百万级token上下文窗口,在Artificial Analysis Intelligence Index上落到55分,比Gemini 3 Flash高出9分。到周二上午,一条r/Anthropic的帖子已经把图表并排放在了Claude Opus 4.6旁边,提出了这个市场绕了六个月的问题:在哪个点上,基准测试两分的领先不再值得五倍的价格?

Intelligence Index把推理、知识、编码、数学和Agent任务完成的一系列公开评测,汇总为1到100的单一分数。自适应推理模式下的Claude Opus 4.6停在57。5月19日发布的Gemini 3.5 Flash停在55。版本间九分的跳跃,是Flash在一代内记录的最大单步进步,足以让新模型在原始智能上追平Anthropic上一代的Sonnet,价格却只是Sonnet的一小部分。

Reddit帖子用的「更聪明」框架,把差距朝着Flash一边拉得过开了。在纯Intelligence Index上,Opus 4.6仍然领先两分。把帖子点爆的那张图,不是孤立的Intelligence Index。它是智能效率对成本的视图,那个轴在做另一份工作;在那里,Flash 3.5不仅仅是赢过Opus 4.6,它停在了附近没有别人的等级里。

Opus 4.6每百万输入token要价大约6.25美元,每百万输出25美元。Flash要价1.5和9。对一份输出与输入二比一的聊天负载,实际价格比更接近4.5倍,而不是帖子标题里那个圆整的「五倍」。这种取整是诚实的。速度让旗舰的画面更难看:Flash 3.5每秒维持280个以上的输出token,而Opus 4.6在最大努力推理模式下,在同一套基准上跑得只有这速度的大约十分之一。对于用户盯着光标的那类产品 — 编码助手、客服Agent、任何交互流程 — 延迟是一项价格回购不了的功能。

一年前,买最贵那台模型的论据一行就够。下一档的质量跃迁足够大,价格差只是相对所交付价值的一个舍入误差。帖子贴上来的那张图,是另一张图。最后两个智能分的边际成本,已经变成了生产负载的整个价格决定,而舍入误差现在更接近每花六美元里就有4.75美元。

把Opus 4.6留在技术栈里仍然有一条干净的理由。几百页的长上下文推理;错误会逐步累积的Agent循环;汇总分上两分差距背后藏着大得多的任务级优势的文档分析。当失效模式是「答案错了」而不是「答案迟了」时,Opus仍然是工程师会去找的模型。看起来是这种形态的生产负载份额在缩。它不是零,而且正是每百万25美元为自己赚薪水的那一段。

推动大部分可计费token的聊天回合 — 起草、摘要、分类、翻译、代码自动补全、面向客户的推理 — 全都在Flash的射程之内。工程团队每个季度问的那个问题,已经不再是「哪一台模型最好」。而是「在可接受的延迟下,每一美元哪一台模型给得最多」。第二个问题,Flash现在以一个不需要细腻解读的差距赢下。

帖子里的二级框架,「到处都共识Opus 4.6比4.7好」,值得更温和的对待。它是轶事。Anthropic最近两个Opus版本在代码评测和工具使用严谨度上获得分裂的反馈,有团队报告4.7在长Agent循环上出现回退,也有团队报告在相同负载上获得干净的胜利。当行为在小版本间多个维度被调整时,两种观察可以同时为真。两个模型在公开指数上还相距不到一分,所以社区的分裂更像口味之争而非能力之争。不在争论之内的是,两个Opus中任何一个的价格都没动。

Reddit对话里更深的信号,是用户没在争的东西。帖子里没有人在原则层面替Opus的价格辩护。冒出来的辩护是负载特定的。「Opus在我这条Agent循环里还在赢我」。「Opus留在我们的文档审查pipeline里」。它们都是真的,但是负载辩护,不是旗舰辩护。旗舰应该在频谱上赢,不只是在某一条车道上。

智能差两分。价格五倍。反方向上速度六倍。百万级token的上下文窗口,每百万输入1.5美元。多模态输入,Agent任务Elo超过1650,缓存输入九折。Anthropic下个季度的回应会讲它自己的故事。2026年5月更难写的,是销售人员要带进客户会议的那段论据。

讨论

有 0 条评论。