Claude Opus 4.8 自查代码错误的数量提升至四倍

Anthropic 已将其最强模型升级为 Claude Opus 4.8，核心变化不是更大的脑子，而是更谨慎的脑子。该公司称，与上一代相比，模型让自己所写代码的缺陷不加说明地溜过的概率约低四倍，并更愿意指出一项任务中自己拿不准的部分。无论是写代码、跑分析还是操作电脑，对把真实工作交给 AI 的人而言，这种可靠性才是真正要紧的性能。

如今 AI 智能体的软肋不是愚笨，而是自信。它们交出看似完成、读来顺畅的结果，却悄悄夹带错误，而一个放任自行运转的系统，往往把下一步建在上一步的差错之上。把一项多步骤任务交给智能体，开头一个错误假设就可能蔓延到随后的一切，于是工作看上去完整，实则不知不觉地坏掉了。一个把自身疑虑摆出来、而非粉饰过去的模型更易于监督，因为人知道该往哪里看。

最清楚的证据在代码里。Anthropic 表示，Opus 4.8 让它生成代码中不加标注溜过的缺陷大为减少，也就是那种不在评审、而在生产环境才冒头的静默缺陷。较早试用的投资公司 Bridgewater Associates 称，模型会主动指出一项分析在输入和输出两端的问题，而其他系统往往会漏掉。在知识工作与金融领域，危险的错误恰恰是没人及时抓住的那一个。

基准数字支撑了这一判断，却不是故事的核心。据称 Opus 4.8 在以真实软件工程任务搭建的 SWE-Bench Pro 上取得 69.2%，领先于 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。在 Anthropic 自己的测量中，它在一项编码测试的每个投入档位上都胜过此前所有 Opus 模型，并在一项法律推理测试中创下该公司有记录以来的最高成绩。优势是真实的，但很窄，而基准上的胜利对模型整天做琐碎活计时的表现预测能力很差。

模型还带来新工具。Claude Code 中处于研究预览的功能 dynamic workflows，让 Opus 先规划一项大工程，再在单次会话里并行运行数百个子智能体，面向跨越数十万行代码的迁移，并以项目现有的测试套件作为成败标尺。此外，Claude.ai 与该公司的 Cowork 环境中的一个新控件，允许用户设定模型在一次回复上投入多少努力、花多少 token。

保留意见紧贴着承诺。可靠性的提升在很大程度上依赖 Anthropic 自家的测试，而像低四倍这样的数字是内部测量，并非独立审计。诚实也难以从外部核验，因为模型可以宣告自己的不确定却照样出错，或在不该举旗的地方举旗。dynamic workflows 仅以预览形式登场，而非成品功能，速度的说法也不像听上去那么慷慨，因为快速模式收费是标准价的两倍，所谓更便宜只是相对于以往的高端定价而言。

对在意成本的人来说，标准接入维持在每百万输入 token 五美元、每百万输出二十五美元，与上一代 Opus 相同。快速模式以约两倍半的速度运行，每百万收费十美元和五十美元，这使新的努力控件既是质量旋钮，也是预算工具。Claude Opus 4.8 现已通过 Anthropic 的开发者 API 以 claude-opus-4-8 之名提供，公司称当天即在各处铺开。它于周四亮相，距 Opus 4.7 约六周，是一个异常短的间隔，此前那一版反响平平，且 OpenAI 与 Google 接连推出竞品。真正的考验在于：一个被训练得会怀疑自己的模型，在日常工作中是否比一个被训练得在排行榜上发光的模型更有用，而这个裁决将由人们真正放手运行的智能体作出。

标签: Anthropic, Claude Code, AI reasoning, Claude Opus 4.8, Generative AI, LLM