gpt-5.4 mini和nano这两个轻量级模型直接上线了，这下子大家都开始讨论这事儿了。

突然发现OpenAI没打个招呼，就把GPT-5.4 mini和nano这两个轻量级模型直接上线了，这下子大家都开始讨论这事儿了。这两个模型主打一个“快、准、省”，是为了让大家用着顺手，又能把钱袋子捂紧点。在编程能力测试这块，mini表现得特别厉害，SWE-Bench Pro这一项拿到了54.4%，离满血版只差2个百分点多一点。修复GitHub上的bug这种复杂活儿，mini现在已经和顶级版本差不多了。而且它跑得比上一代快一倍，钱还花得少。另外一个Terminal-Bench 2.0测试里，mini也猛冲了一把，60.0%的成绩甩了上一代38.2%一大截。即便是更轻量的nano，在SWE-Bench Pro上也拿了52.4%，比上一代mini高出了7%，看来蒸馏技术进步不小。做推理和调用工具的能力也是关键。在博士级的GPQA Diamond上，mini拿到了88%，跟顶级版只差5%。Toolathlon测试里更是厉害，42.9%的得分直接碾压了26.9%的上代产品。还有专门针对电信行业的τ2-bench测试，mini以93.4%的高分紧咬着98.9%的顶级版。计算机使用方面也是mini的强项。OSWorld-Verified测试里它得了72.1%，跟顶级版差距不到3个百分点。视觉推理这块有点依赖规模大小。MMMUPro测试里mini到了78.0%，离81.5%的顶级版只差3个百分点左右。价格上给大家省了不少钱。400K上下文窗口的价格是0.75美元输入、4.50美元输出；nano就更便宜了，0.2美元输入和1.25美元输出。有人用了说速度比以前快很多，甚至比Claude 4.6 Opus便宜9倍。架构上采用分层调度的办法。大模型负责规划决策，小模型去干具体活。比如写代码的时候让大模型定个方向，再派几个小模型去搜代码库什么的。这种模式下只消耗30%的大模型配额，相当于同样的钱能干多三倍的活儿。目前这两个模型都能用API、Codex和ChatGPT访问。收费方面API是0.75美元输入和4.50美元输出；ChatGPT端免费用户也能体验到mini。不过在长上下文处理上还有点不足。比如OpenAI MRCR v2里的8针搜索任务里差距就挺大。在64K-128K窗口下旗舰版是86.0%，mini只有47.7%；128K-256K窗口下更是79.3%对33.6%。 Graphwalks测试里追踪任务也是71.5%对比89.8%。不过OpenAI的策略就是按需求分层——让mini负责编码和工具调用速度快的活儿；旗舰版去处理长文本那些复杂事。