gpt-5.4mini和gpt-5.4nano，这对双子星肯定会推动ai 应用变得更接地气

说到 OpenAI 最近推出的那两款轻量级模型 GPT-5.4mini 和 GPT-5.4nano，科技圈可真是炸开了锅。这两个小东西一出来，大家就发现它们的卖点特别实在，“快、准、省”三个词把实际需求给解决了，速度、成本和性能之间的平衡找得非常准。最让人眼前一亮的是编码能力这块儿。在 SWE-BenchPro 测试里，GPT-5.4mini 拿下了 54.4% 的高分，离旗舰版 57.7% 的成绩只差那么一丢丢。这就说明，在修那种真的软件 Bug 这种复杂活儿上，mini 已经非常接近旗舰的水准了。不光速度比上一代快一倍，成本还降了不少，性价比特别高。在 Terminal-Bench2.0 这个测试里，mini 直接把前代的 38.2% 给甩在身后，飙到了 60.0%，进步超过了 57%。哪怕是更轻量的 nano 版本，也在 SWE-BenchPro 上拿到了 52.4% 的成绩，比前代 mini 高出近 7%。说到推理和用工具的本事，那更是没得挑。在博士级别的科学推理基准 GPQADiamond 上，mini 拿了 88%，只比旗舰差了 5%。在工具调用这一块儿表现更是抢眼。Toolathlon 测试里它得了 42.9%，直接把 GPT-5mini 的 26.9% 甩了几条街。还有电信行业用的那个 τ2-bench 测试，mini 拿了 93.4%，几乎追平了旗舰的 98.9%。这些数据都在说一个事：mini 不再是单纯的“缩小版”了，它现在已经是能独当一面的生产级工具。最让人惊喜的是它能像人一样用电脑。OSWorld-Verified 测试里，mini 拿了 72.1% 的分，离旗舰 75.0% 的水平只差不到 3 个百分点。而前面那一代才只有 42.0%。这说明 AI 现在已经有点“看屏幕干活”的本事了。虽然 nano 在这块儿稍微差点意思（只有 39.0%），但也能看出来模型规模对视觉推理有多重要。在多模态推理的 MMMUPro 测试中，mini 拿了 78.0%，离旗舰的 81.5% 也很近。这两个模型最大的好处还是成本低、跑得快。GPT-5.4mini 有个特别大的上下文窗口（400K），输入一个 token 才 0.75 美元，输出只要 4.5 美元（甚至 4.50 美元），比旗舰版便宜了差不多三分之一。nano 就更夸张了：输入只要 0.2 美元一个 token，输出 1.25 美元一个 token，只有旗舰的十二分之一那么贵。开发者们反馈说，mini 跑得比前代快多了，比 Claude4.6Opus 还便宜 9 倍呢。OpenAI 这次强调了一种“分层调度”的思路：让 GPT-5.4 旗舰去做规划和决策，具体干活的事儿交给 mini 来办。这样一来，mini 只消耗旗舰配额的 30%，同样的钱就能多跑三倍多的任务量。现在这两个模型已经全面上线了，API、Codex 和 ChatGPT 都能用。API 的定价就是输入 0.75 美元一个 token，输出 4.50 美元一个 token。而在 ChatGPT 端更是贴心：免费用户都能直接用 mini；哪怕付费用户额度用完了也会自动降级成 mini 用。当然它也不是没短板。在那种需要超长上下文处理的 OpenAIMRCRv2 测试里（比如 8 针搜索），旗舰版在 64K-128K 窗口下能拿 86.0% 的分；而 mini 就只能得 47.7%，差距足足有 40 个百分点那么大。这意味着在需要精确检索超长文本或者逻辑追踪的时候，mini 还真没法完全替代旗舰版。不过 OpenAI 正是用这种分层的策略来满足不同需求：mini 主打速度和编码还有工具调用；旗舰版就负责那些长文本之类的复杂活儿。随着技术的进步，这对双子星肯定会推动 AI 应用变得更普及、更接地气。