2025年12月,谷歌DeepMind团队给Aletheia升级了新的技能,他们让Aletheia在数学领域大显身手。今年12月,这个名叫Aletheia的AI在FirstProof数学挑战里刷了新纪录。它自己就搞定了10个高难度研究问题里的6个,这比去年AI在国际数学奥林匹克(IMO)竞赛中的表现还要强。研究人员强调,FirstProof的题目都是真科研里出来的,提交答案前完全没人知道题长啥样,就是为了防止训练数据被泄露。 Aletheia解题全程都是自己动手,没给人动手脚,时间到了就交了卷。团队这次用了两套Aletheia,这两个家伙都是Gemini DeepThink模型变出来的。专家们看了一眼,说这6道题逻辑都挺严谨的,尤其是那道第8题,大家看法不太一样。这事儿说明AI解题还是挺复杂的。 跟之前那个用来解Erdős问题的版本比起来,现在的Aletheia准确率明显变高了。虽然干得不错,可这俩家伙有时候也会判断错方向,犯假阳性错误,说明在可靠性上还差点意思。好在Aletheia自带自我筛选功能,能帮着把那些不靠谱的答案筛掉,省得人类专家看了心烦。 现在Aletheia证明和验证数学论文的活儿干得还不错,但还不能完全顶替人干活。未来搞研究估计得是人类跟AI一起配合才行,AI可以去高强度地搜索路径、搞形式化验证这些体力活,人类则负责把理论理清楚、升华一下。数学作为人类理性思维的高地,现在正在被AI慢慢突破。以后AI在数学论文里能担什么角色,挺让人期待的。