AI能否胜任数学研究?帝国理工学院教授Buzzard的深度思考
近日,帝国理工学院教授Kevin Buzzard发表长文,探讨了人工智能在数学领域的能力和局限性。文章以OpenAI的o3模型在Frontier Math数据集上取得25.2%的准确率为起点,深入分析了AI在数学研究中的现状和未来发展。
Frontier Math数据集:AI数学能力的试金石
Epoch AI发布的Frontier Math数据集包含数百个数学难题,其特点是答案具有清晰的计算结果且易于自动验证,难度远超一般水平。即使是菲尔兹奖得主陶哲轩也认为这些问题极具挑战性。Buzzard教授本人也仅能解答其中部分问题,并认为即使是聪明的本科生也很难完成这些题目。数据集的保密性是为了防止模型通过记忆答案作弊。
OpenAI o3的突破与局限
OpenAI o3在Frontier Math数据集上取得25.2%的准确率,震惊了AI数学界。但Buzzard教授指出,这部分源于数据集中存在约25%的“IMO/本科生风格”问题。他认为,o3目前的能力相当于本科生水平,在解决标准化问题上表现出色,但在原创性证明和深刻理解数学概念方面仍有较大差距。 他期待AI能在该数据集上达到50%的准确率,这代表着AI能够应对更高级别的博士资格考试。
AlphaProof的成功与IMO金牌的预测
DeepMind的AlphaProof系统在2024年国际数学奥林匹克竞赛中取得了显著成绩,解决了六道题中的四道,其中三道题的解答是完全形式化的Lean证明。Buzzard教授预测,在2025年,AI将有能力达到IMO金牌水平。
“证明这个定理”的挑战:AI的未来方向
Buzzard教授强调,虽然AI在“找到这个数字”方面取得了突破,但数学研究的核心在于“证明这个定理”。目前AI在逻辑推理方面的准确性远低于人类专家,存在“伪证明”的风险。他担忧未来可能出现AI“证明”著名猜想(如黎曼猜想)的浪潮,这将给数学界带来新的挑战。 他认为,未来AI不仅需要给出正确的证明,还需要以人类可理解的方式解释其成立原因。
评分难题与未来展望
AI参与数学竞赛带来的评分难题也值得关注。对于使用计算机证明检查器提交答案的系统,评审相对容易;而对于使用自然语言提交答案的大语言模型,则需要人工仔细审核,这将耗费大量时间和精力。未来AI在数学领域的突破,需要在“正确性”和“可理解性”之间取得平衡。
总而言之,Buzzard教授的文章为我们展现了AI在数学领域发展的光明前景和潜在挑战。虽然AI在某些方面已经展现出超越人类的能力,但在原创性思考和深刻理解方面仍有很长的路要走。 未来,AI与人类数学家的合作将是推动数学发展的重要方向。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。