技术

谷歌AI用几百美元破解了悬置56年的数学难题

Susan Hill

谷歌DeepMind的一套研究系统,为数学家保罗·埃尔德什(Paul Erdős)提出的九个未解难题给出了经机器核验的完整证明,其中两个已悬置56年。同一套系统还了结了取自整数序列在线百科全书的44条猜想,关上了一个开放15年的代数几何问题,并改进了凸优化中一个已知的上界。引人注目的数字不如方法重要。这些证明每一个都由机器核验过,而不只是由机器断言。

埃尔德什于1996年去世,留下数百个精确而顽固的问题,许多陈述简单,却极难了结。数十年间,它们成了这门学科的常设考卷。序列猜想来自一个公开数据库,数学家在其中挖掘规律,一条猜出来的公式可能多年得不到证明。它们不是为了讨好模型而设计的人造基准,而是开放数学真正积压的难题。

这个区别就是全部要点。这套名为AlphaProof Nexus的系统,用形式语言Lean写下论证,其编译器会否决任何无法确认的步骤。一个证明要么通过,要么不通过,没有空间留给那种听上去笃定、事后却被发现出错的段落。对想判断某项AI“发现”是否属实的人来说,这正是新闻稿与结果之间的分界线。

在底层,证明器跑在Gemini 3.1 Pro之上,由一个更轻的模型负责排序。这个循环几乎单调乏味。模型用Lean草拟证明,编译器返回错误,这些错误又汇入下一次尝试。维系诚实的是符号反馈,而非流畅的文字。团队建了四个复杂度递增的版本,其中一个能生成并排序相互竞争的证明草图。然而最简单的版本,仅由模型与编译器构成的循环,独自解出了全部九个埃尔德什问题。

悄然惊人的是成本。每解出一个问题,计算时间只花几百美元。曾耗尽职业生涯的问题,以一次周末出游的价钱被关上。这并不会让数学家退休。仍需要有人来挑选哪些问题值得攻克,把它们改写成系统能读的形式,并判断一个答案意味着什么。改变的,是“到底什么值得一试”这笔账。

保留意见比标题更重。在尝试的353个埃尔德什问题中解出九个,命中率约为2.5%。序列那边的数字,492中的44,不到9%。作者直言,这些问题大多仍遥不可及,需要大量新理论的更是如此,而成功集中在Lean数学库已经深厚的领域。抽掉这具由人搭起的脚手架和精心挑选的目标清单,系统几乎无处立足。

这份谨慎是应得的。在一桩被广泛嘲笑的事件里,一个竞争实验室宣称其模型解出了十个埃尔德什问题,直到数学家指出答案早已见于已发表的文献。模型是找到了它们,而非证明了它们。AlphaProof Nexus的构造正是为了对这种错误免疫。一个已知结果的Lean证明仍然有效,而某个真正新东西的Lean证明无法伪装。掌舵DeepMind的杰米斯·哈萨比斯(Demis Hassabis)特意强调,这项工作并非通用人工智能。对一家鲜少对自家模型谦逊的公司而言,这是异常审慎的一笔。

研究者还强调了一个更微妙的收获。连失败也有用。由于每一步部分证明都经过形式核验,数学家无需手工重核整个论证,就能精确看出系统能关上哪些子目标、关不上哪些。机器不再是神谕,而成了一个不知疲倦的合作者,亮出自己的工作,并指明难点仍藏在何处。

这一结果并非孤例。它与另一个竞争推理模型的主张几乎同时出现,据称那个模型推翻了离散几何中一个约80年的埃尔德什猜想,这一发现由在职数学家加以完善并背书。两个实验室,两种方法,一个倚靠形式核验,另一个倚靠原始的推理链条,相隔数周抵达同一前沿。这场竞争,不再关乎听上去聪明的聊天机器人。

这项工作在本月发表的一篇论文中作了详述,其方法依托开放工具,即Lean及其由社区构建的库,因此外部团队可以检查并重跑这些证明,而不必轻信一篇公司博客。DeepMind没有说明该系统是否会向公司之外的研究者开放。值得盯住的数字不是九,而是那2.5%会不会变成十,再变成二十。一旦那天到来,关于这些机器究竟为何而生的争论,将不得不从头开始。

讨论

有 0 条评论。