Inception把Mercury 2推了出来,号称这是世上最快的推理型大语言模型,专门用来搞生产级AI应用。他们抛弃了传统的顺序解码套路,搞起了并行优化,就能同时产出多个Token,在短短几步里就让结果收敛。这东西是在2月24日正式对外发布的,想上手的开发者可以上Inception官网去申请权限,也能直接在聊天界面体验一把。Inception说,Mercury 2主要是为了解决以前那种自回归顺序解码的卡脖子问题。并行优化不光让速度变快了,还把推理的那种“你多我少”的平衡机制给打破了。以前大家总觉得要变聪明就得费劲儿——链条要长、样本要多、重试也得多,结果就是成本高延迟也大。Mercury 2这回用了一种叫扩散的推理技术,硬是在满足实时延迟预算的前提下,把推理级别的质量给做到了位。 它跟OpenAI的API能玩得转,特别适合那种对延迟特别敏感、对用户体验要求特高的场合。像写代码、做编辑、搞智能体循环、搞实时语音聊天这些活儿,还有搜东西和处理RAG操作管道都能用得上。有问题?看看Q&A。 问题1:Mercury 2是啥?有啥不一样? 回答:Mercury 2是Inception弄出来的大模型,被吹成了最快的推理型AI。它的厉害之处在于用并行优化取代了老一套的顺序解码,能同时吐出多个Token,这就大大加快了生成速度,把延迟也给降下来了。 问题2:这玩意儿能用在哪儿? 回答:它专门适合那些对速度和体验要求特高的地方,代码编辑、智能体、实时语音交互、搜索以及RAG管道之类的生产级应用都能玩得转。 问题3:怎么用啊? 回答:开发者去Inception官网上申请权限就行,也能直接在聊天界面试用。它跟OpenAI API很搭调,方便大家集成到自己的系统里。