谷歌AI用几百美元破解了悬置56年的数学难题

谷歌DeepMind的一套研究系统，为数学家保罗·埃尔德什（Paul Erdős）提出的九个未解难题给出了经机器核验的完整证明，其中两个已悬置56年。同一套系统还了结了取自整数序列在线百科全书的44条猜想，关上了一个开放15年的代数几何问题，并改进了凸优化中一个已知的上界。引人注目的数字不如方法重要。这些证明每一个都由机器核验过，而不只是由机器断言。

埃尔德什于1996年去世，留下数百个精确而顽固的问题，许多陈述简单，却极难了结。数十年间，它们成了这门学科的常设考卷。序列猜想来自一个公开数据库，数学家在其中挖掘规律，一条猜出来的公式可能多年得不到证明。它们不是为了讨好模型而设计的人造基准，而是开放数学真正积压的难题。

这个区别就是全部要点。这套名为AlphaProof Nexus的系统，用形式语言Lean写下论证，其编译器会否决任何无法确认的步骤。一个证明要么通过，要么不通过，没有空间留给那种听上去笃定、事后却被发现出错的段落。对想判断某项AI“发现”是否属实的人来说，这正是新闻稿与结果之间的分界线。

在底层，证明器跑在Gemini 3.1 Pro之上，由一个更轻的模型负责排序。这个循环几乎单调乏味。模型用Lean草拟证明，编译器返回错误，这些错误又汇入下一次尝试。维系诚实的是符号反馈，而非流畅的文字。团队建了四个复杂度递增的版本，其中一个能生成并排序相互竞争的证明草图。然而最简单的版本，仅由模型与编译器构成的循环，独自解出了全部九个埃尔德什问题。

悄然惊人的是成本。每解出一个问题，计算时间只花几百美元。曾耗尽职业生涯的问题，以一次周末出游的价钱被关上。这并不会让数学家退休。仍需要有人来挑选哪些问题值得攻克，把它们改写成系统能读的形式，并判断一个答案意味着什么。改变的，是“到底什么值得一试”这笔账。

保留意见比标题更重。在尝试的353个埃尔德什问题中解出九个，命中率约为2.5%。序列那边的数字，492中的44，不到9%。作者直言，这些问题大多仍遥不可及，需要大量新理论的更是如此，而成功集中在Lean数学库已经深厚的领域。抽掉这具由人搭起的脚手架和精心挑选的目标清单，系统几乎无处立足。

这份谨慎是应得的。在一桩被广泛嘲笑的事件里，一个竞争实验室宣称其模型解出了十个埃尔德什问题，直到数学家指出答案早已见于已发表的文献。模型是找到了它们，而非证明了它们。AlphaProof Nexus的构造正是为了对这种错误免疫。一个已知结果的Lean证明仍然有效，而某个真正新东西的Lean证明无法伪装。掌舵DeepMind的杰米斯·哈萨比斯（Demis Hassabis）特意强调，这项工作并非通用人工智能。对一家鲜少对自家模型谦逊的公司而言，这是异常审慎的一笔。

研究者还强调了一个更微妙的收获。连失败也有用。由于每一步部分证明都经过形式核验，数学家无需手工重核整个论证，就能精确看出系统能关上哪些子目标、关不上哪些。机器不再是神谕，而成了一个不知疲倦的合作者，亮出自己的工作，并指明难点仍藏在何处。

这一结果并非孤例。它与另一个竞争推理模型的主张几乎同时出现，据称那个模型推翻了离散几何中一个约80年的埃尔德什猜想，这一发现由在职数学家加以完善并背书。两个实验室，两种方法，一个倚靠形式核验，另一个倚靠原始的推理链条，相隔数周抵达同一前沿。这场竞争，不再关乎听上去聪明的聊天机器人。

这项工作在本月发表的一篇论文中作了详述，其方法依托开放工具，即Lean及其由社区构建的库，因此外部团队可以检查并重跑这些证明，而不必轻信一篇公司博客。DeepMind没有说明该系统是否会向公司之外的研究者开放。值得盯住的数字不是九，而是那2.5%会不会变成十，再变成二十。一旦那天到来，关于这些机器究竟为何而生的争论，将不得不从头开始。

标签: 人工智能, Gemini, Google DeepMind, Paul Erdős, AlphaProof Nexus, Automated Theorem Proving