说到 OpenAI 最近推出的那两款轻量级模型 GPT-5.4mini 和 GPT-5.4nano,科技圈可真是炸开了锅。这两个小东西一出来,大家就发现它们的卖点特别实在,“快、准、省”三个词把实际需求给解决了,速度、成本和性能之间的平衡找得非常准。 最让人眼前一亮的是编码能力这块儿。在 SWE-BenchPro 测试里,GPT-5.4mini 拿下了 54.4% 的高分,离旗舰版 57.7% 的成绩只差那么一丢丢。这就说明,在修那种真的软件 Bug 这种复杂活儿上,mini 已经非常接近旗舰的水准了。不光速度比上一代快一倍,成本还降了不少,性价比特别高。 在 Terminal-Bench2.0 这个测试里,mini 直接把前代的 38.2% 给甩在身后,飙到了 60.0%,进步超过了 57%。哪怕是更轻量的 nano 版本,也在 SWE-BenchPro 上拿到了 52.4% 的成绩,比前代 mini 高出近 7%。 说到推理和用工具的本事,那更是没得挑。在博士级别的科学推理基准 GPQADiamond 上,mini 拿了 88%,只比旗舰差了 5%。在工具调用这一块儿表现更是抢眼。Toolathlon 测试里它得了 42.9%,直接把 GPT-5mini 的 26.9% 甩了几条街。还有电信行业用的那个 τ2-bench 测试,mini 拿了 93.4%,几乎追平了旗舰的 98.9%。这些数据都在说一个事:mini 不再是单纯的“缩小版”了,它现在已经是能独当一面的生产级工具。 最让人惊喜的是它能像人一样用电脑。OSWorld-Verified 测试里,mini 拿了 72.1% 的分,离旗舰 75.0% 的水平只差不到 3 个百分点。而前面那一代才只有 42.0%。这说明 AI 现在已经有点“看屏幕干活”的本事了。虽然 nano 在这块儿稍微差点意思(只有 39.0%),但也能看出来模型规模对视觉推理有多重要。 在多模态推理的 MMMUPro 测试中,mini 拿了 78.0%,离旗舰的 81.5% 也很近。 这两个模型最大的好处还是成本低、跑得快。GPT-5.4mini 有个特别大的上下文窗口(400K),输入一个 token 才 0.75 美元,输出只要 4.5 美元(甚至 4.50 美元),比旗舰版便宜了差不多三分之一。nano 就更夸张了:输入只要 0.2 美元一个 token,输出 1.25 美元一个 token,只有旗舰的十二分之一那么贵。 开发者们反馈说,mini 跑得比前代快多了,比 Claude4.6Opus 还便宜 9 倍呢。OpenAI 这次强调了一种“分层调度”的思路:让 GPT-5.4 旗舰去做规划和决策,具体干活的事儿交给 mini 来办。这样一来,mini 只消耗旗舰配额的 30%,同样的钱就能多跑三倍多的任务量。 现在这两个模型已经全面上线了,API、Codex 和 ChatGPT 都能用。API 的定价就是输入 0.75 美元一个 token,输出 4.50 美元一个 token。而在 ChatGPT 端更是贴心:免费用户都能直接用 mini;哪怕付费用户额度用完了也会自动降级成 mini 用。 当然它也不是没短板。在那种需要超长上下文处理的 OpenAIMRCRv2 测试里(比如 8 针搜索),旗舰版在 64K-128K 窗口下能拿 86.0% 的分;而 mini 就只能得 47.7%,差距足足有 40 个百分点那么大。这意味着在需要精确检索超长文本或者逻辑追踪的时候,mini 还真没法完全替代旗舰版。 不过 OpenAI 正是用这种分层的策略来满足不同需求:mini 主打速度和编码还有工具调用;旗舰版就负责那些长文本之类的复杂活儿。随着技术的进步,这对双子星肯定会推动 AI 应用变得更普及、更接地气。