google gemini 3.1 pro预览版,给自家的anthropic claude opus 4.6 狠狠甩下了

听说了没,Google推出的Gemini 3.1 Pro预览版,居然在Artificial Analysis的人工智能指数里登顶了,给自家的Anthropic Claude Opus 4.6狠狠甩下了4分。你说这成本吧,Gemini才要892美元,把对手的2,304美元和2,486美元都给比了下去,这性价比简直离谱。不过跟GLM-5那种开源模型比起来,Gemini虽然只花了547美元不到点的钱(好像是547美元左右),但在效能上那是没得说。 虽说在Science、Agent、Physics这些评测里拿了六个第一,幻觉率也少了38个百分点,看着挺厉害的,可一到现实世界处理多步骤任务,Gemini还是不如Claude Sonnet 4.6或者GPT-5.2顺手。大家挑模型都要挑2026年那样白热化的竞争环境下能干活的家伙嘛。还有那个事实查核测试特别扎心,Gemini居然还不如之前的Gemini 3 Pro靠谱,只能验证四分之一的信息准确度,这让大家意识到光跑分不行。 AI这块路还长着呢,Google在Science和Knowledge方面虽然不错,但咱们不能忘了在Science推理和编码上的突破还没到万无一失的时候。搞开发的和用模型的得建立自己的标准才行,毕竟真要在Production环境里执行任务,可靠性才是王道。