11位顶尖数学家发起了first proof 挑战,目的是检验ai能有多大能耐去解决那些高难度的研究问题。不过结果挺

今年2月,11位顶尖的数学家发起了FirstProof挑战,目的是检验AI能有多大能耐去解决那些高难度的研究问题。不过结果挺让人失望,不管是人类还是机器,都没能把所有题目都答对,甚至连挑战的发起者自己,也只是靠着AI的帮助才搞定了其中的两题。Google的DeepMind那边更是搞出了个大新闻,他们的Aletheia系统居然凭着自个儿琢磨出了一篇能拿去发论文的博士级研究成果。Greg Burnham是EpochAI的高级研究员,他说这个系统的厉害之处在于,它全是自己干的活儿,完全没让人类插手。Burnham也提到,像FrontierMath这种老的测试方式现在已经不够用了。就在2024年11月,EpochAI刚推出了一套新的标准化数学题库FrontierMath,专门用来给那些最先进的AI模型摸底。刚开始的时候,哪怕是最聪明的ChatGPT 5.2 Pro或者Claude Opus 4.6这种顶级大模型,面对这些题也只能勉强拿下2%的分数。但现在情况变了,光是ChatGPT 5.2 Pro和Claude Opus 4.6这两款工具,就能把1到3级的题目答对超过40%,甚至连难度最高的第4层级也有30%的通过率。团队当时还搞了个初步的摸底考试,给300道题分了1到3个难度档次。因为觉得AI发展得太快,Burnham他们又在这套题库里加了个第4层的更变态的题目。这个测试的范围特别广,从本科生到刚当上博士后的水平全都涵盖了。这么一来就把事情推向了高潮,如今像ChatGPT 5.2 Pro和Claude Opus 4.6这类模型,在第1到3层的问题上正确率超过了40%,在第4层也有了30%的准确率。这事儿把研究人员都给吓了一跳。 Burnham觉得现在的测试跟不上节奏了。为了应对这种局面,EpochAI又弄出了个FrontierMath: OpenProblems测试。他们准备了14个连人类都没搞定的难题作为基准。Burnham强调这组问题特别刁钻,而且每题都能让机器自动打分。像DeepMind的Aletheia系统自主发表论文这种事以前根本不敢想。虽然FirstProof挑战在数学圈里很火。 大家现在就等着看未来会怎么样。