谷歌deepmind 团队给aletheia 升级了新的技能，他们让aletheia在数学领域大显身手。

2025年12月，谷歌DeepMind团队给Aletheia升级了新的技能，他们让Aletheia在数学领域大显身手。今年12月，这个名叫Aletheia的AI在FirstProof数学挑战里刷了新纪录。它自己就搞定了10个高难度研究问题里的6个，这比去年AI在国际数学奥林匹克（IMO）竞赛中的表现还要强。研究人员强调，FirstProof的题目都是真科研里出来的，提交答案前完全没人知道题长啥样，就是为了防止训练数据被泄露。 Aletheia解题全程都是自己动手，没给人动手脚，时间到了就交了卷。团队这次用了两套Aletheia，这两个家伙都是Gemini DeepThink模型变出来的。专家们看了一眼，说这6道题逻辑都挺严谨的，尤其是那道第8题，大家看法不太一样。这事儿说明AI解题还是挺复杂的。跟之前那个用来解Erdős问题的版本比起来，现在的Aletheia准确率明显变高了。虽然干得不错，可这俩家伙有时候也会判断错方向，犯假阳性错误，说明在可靠性上还差点意思。好在Aletheia自带自我筛选功能，能帮着把那些不靠谱的答案筛掉，省得人类专家看了心烦。现在Aletheia证明和验证数学论文的活儿干得还不错，但还不能完全顶替人干活。未来搞研究估计得是人类跟AI一起配合才行，AI可以去高强度地搜索路径、搞形式化验证这些体力活，人类则负责把理论理清楚、升华一下。数学作为人类理性思维的高地，现在正在被AI慢慢突破。以后AI在数学论文里能担什么角色，挺让人期待的。