技术

Claude Opus 4.8 自查代码错误的数量提升至四倍

Susan Hill

Anthropic 已将其最强模型升级为 Claude Opus 4.8,核心变化不是更大的脑子,而是更谨慎的脑子。该公司称,与上一代相比,模型让自己所写代码的缺陷不加说明地溜过的概率约低四倍,并更愿意指出一项任务中自己拿不准的部分。无论是写代码、跑分析还是操作电脑,对把真实工作交给 AI 的人而言,这种可靠性才是真正要紧的性能。

如今 AI 智能体的软肋不是愚笨,而是自信。它们交出看似完成、读来顺畅的结果,却悄悄夹带错误,而一个放任自行运转的系统,往往把下一步建在上一步的差错之上。把一项多步骤任务交给智能体,开头一个错误假设就可能蔓延到随后的一切,于是工作看上去完整,实则不知不觉地坏掉了。一个把自身疑虑摆出来、而非粉饰过去的模型更易于监督,因为人知道该往哪里看。

最清楚的证据在代码里。Anthropic 表示,Opus 4.8 让它生成代码中不加标注溜过的缺陷大为减少,也就是那种不在评审、而在生产环境才冒头的静默缺陷。较早试用的投资公司 Bridgewater Associates 称,模型会主动指出一项分析在输入和输出两端的问题,而其他系统往往会漏掉。在知识工作与金融领域,危险的错误恰恰是没人及时抓住的那一个。

基准数字支撑了这一判断,却不是故事的核心。据称 Opus 4.8 在以真实软件工程任务搭建的 SWE-Bench Pro 上取得 69.2%,领先于 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。在 Anthropic 自己的测量中,它在一项编码测试的每个投入档位上都胜过此前所有 Opus 模型,并在一项法律推理测试中创下该公司有记录以来的最高成绩。优势是真实的,但很窄,而基准上的胜利对模型整天做琐碎活计时的表现预测能力很差。

模型还带来新工具。Claude Code 中处于研究预览的功能 dynamic workflows,让 Opus 先规划一项大工程,再在单次会话里并行运行数百个子智能体,面向跨越数十万行代码的迁移,并以项目现有的测试套件作为成败标尺。此外,Claude.ai 与该公司的 Cowork 环境中的一个新控件,允许用户设定模型在一次回复上投入多少努力、花多少 token。

保留意见紧贴着承诺。可靠性的提升在很大程度上依赖 Anthropic 自家的测试,而像低四倍这样的数字是内部测量,并非独立审计。诚实也难以从外部核验,因为模型可以宣告自己的不确定却照样出错,或在不该举旗的地方举旗。dynamic workflows 仅以预览形式登场,而非成品功能,速度的说法也不像听上去那么慷慨,因为快速模式收费是标准价的两倍,所谓更便宜只是相对于以往的高端定价而言。

对在意成本的人来说,标准接入维持在每百万输入 token 五美元、每百万输出二十五美元,与上一代 Opus 相同。快速模式以约两倍半的速度运行,每百万收费十美元和五十美元,这使新的努力控件既是质量旋钮,也是预算工具。Claude Opus 4.8 现已通过 Anthropic 的开发者 API 以 claude-opus-4-8 之名提供,公司称当天即在各处铺开。它于周四亮相,距 Opus 4.7 约六周,是一个异常短的间隔,此前那一版反响平平,且 OpenAI 与 Google 接连推出竞品。真正的考验在于:一个被训练得会怀疑自己的模型,在日常工作中是否比一个被训练得在排行榜上发光的模型更有用,而这个裁决将由人们真正放手运行的智能体作出。

讨论

有 0 条评论。