11位顶尖数学家发起了first proof 挑战，目的是检验ai能有多大能耐去解决那些高难度的研究问题。不过结果挺

今年2月，11位顶尖的数学家发起了FirstProof挑战，目的是检验AI能有多大能耐去解决那些高难度的研究问题。不过结果挺让人失望，不管是人类还是机器，都没能把所有题目都答对，甚至连挑战的发起者自己，也只是靠着AI的帮助才搞定了其中的两题。Google的DeepMind那边更是搞出了个大新闻，他们的Aletheia系统居然凭着自个儿琢磨出了一篇能拿去发论文的博士级研究成果。Greg Burnham是EpochAI的高级研究员，他说这个系统的厉害之处在于，它全是自己干的活儿，完全没让人类插手。Burnham也提到，像FrontierMath这种老的测试方式现在已经不够用了。就在2024年11月，EpochAI刚推出了一套新的标准化数学题库FrontierMath，专门用来给那些最先进的AI模型摸底。刚开始的时候，哪怕是最聪明的ChatGPT 5.2 Pro或者Claude Opus 4.6这种顶级大模型，面对这些题也只能勉强拿下2%的分数。但现在情况变了，光是ChatGPT 5.2 Pro和Claude Opus 4.6这两款工具，就能把1到3级的题目答对超过40%，甚至连难度最高的第4层级也有30%的通过率。团队当时还搞了个初步的摸底考试，给300道题分了1到3个难度档次。因为觉得AI发展得太快，Burnham他们又在这套题库里加了个第4层的更变态的题目。这个测试的范围特别广，从本科生到刚当上博士后的水平全都涵盖了。这么一来就把事情推向了高潮，如今像ChatGPT 5.2 Pro和Claude Opus 4.6这类模型，在第1到3层的问题上正确率超过了40%，在第4层也有了30%的准确率。这事儿把研究人员都给吓了一跳。 Burnham觉得现在的测试跟不上节奏了。为了应对这种局面，EpochAI又弄出了个FrontierMath: OpenProblems测试。他们准备了14个连人类都没搞定的难题作为基准。Burnham强调这组问题特别刁钻，而且每题都能让机器自动打分。像DeepMind的Aletheia系统自主发表论文这种事以前根本不敢想。虽然FirstProof挑战在数学圈里很火。大家现在就等着看未来会怎么样。