突然发现OpenAI没打个招呼,就把GPT-5.4 mini和nano这两个轻量级模型直接上线了,这下子大家都开始讨论这事儿了。这两个模型主打一个“快、准、省”,是为了让大家用着顺手,又能把钱袋子捂紧点。在编程能力测试这块,mini表现得特别厉害,SWE-Bench Pro这一项拿到了54.4%,离满血版只差2个百分点多一点。修复GitHub上的bug这种复杂活儿,mini现在已经和顶级版本差不多了。而且它跑得比上一代快一倍,钱还花得少。另外一个Terminal-Bench 2.0测试里,mini也猛冲了一把,60.0%的成绩甩了上一代38.2%一大截。 即便是更轻量的nano,在SWE-Bench Pro上也拿了52.4%,比上一代mini高出了7%,看来蒸馏技术进步不小。 做推理和调用工具的能力也是关键。在博士级的GPQA Diamond上,mini拿到了88%,跟顶级版只差5%。Toolathlon测试里更是厉害,42.9%的得分直接碾压了26.9%的上代产品。 还有专门针对电信行业的τ2-bench测试,mini以93.4%的高分紧咬着98.9%的顶级版。 计算机使用方面也是mini的强项。OSWorld-Verified测试里它得了72.1%,跟顶级版差距不到3个百分点。 视觉推理这块有点依赖规模大小。MMMUPro测试里mini到了78.0%,离81.5%的顶级版只差3个百分点左右。 价格上给大家省了不少钱。400K上下文窗口的价格是0.75美元输入、4.50美元输出;nano就更便宜了,0.2美元输入和1.25美元输出。 有人用了说速度比以前快很多,甚至比Claude 4.6 Opus便宜9倍。 架构上采用分层调度的办法。大模型负责规划决策,小模型去干具体活。比如写代码的时候让大模型定个方向,再派几个小模型去搜代码库什么的。 这种模式下只消耗30%的大模型配额,相当于同样的钱能干多三倍的活儿。 目前这两个模型都能用API、Codex和ChatGPT访问。 收费方面API是0.75美元输入和4.50美元输出;ChatGPT端免费用户也能体验到mini。 不过在长上下文处理上还有点不足。比如OpenAI MRCR v2里的8针搜索任务里差距就挺大。 在64K-128K窗口下旗舰版是86.0%,mini只有47.7%;128K-256K窗口下更是79.3%对33.6%。 Graphwalks测试里追踪任务也是71.5%对比89.8%。 不过OpenAI的策略就是按需求分层——让mini负责编码和工具调用速度快的活儿;旗舰版去处理长文本那些复杂事。