gerardo giaretta:用系统级解决方案解决数据中心ai 推理难题

就在巴塞罗那MWC2026展会的这档口,高通的Gerardo Giaretta已经把一个新办法告诉了大伙儿,那就是用系统级的解决方案来解决数据中心AI推理里面的规模和效率难题。这篇文章里他是这么说的:当前AI给数据中心带来的影响已经从纸上谈兵变成了真刀真枪的实际应用,随着模型越来越复杂、处理量越来越大,大家的部署模式也得跟着变,服务商们现在急得不行,迫切需要在规模、效率还有运营复杂程度之间找到那个平衡点。Gerardo Giaretta表示,面对这一行业的大变动,高通一直把心思放在自家经过验证的系统级优势上,想办法把它用到不断进化的AI推理需求中去,给行业提供真正能用的东西。 其实早在过去的一年里,高通就一直在整合三个关键的东西:一是高性能又省电的AI加速技术;二是设计机架级系统的本事;三是管大规模部署和管理的配套软件。这套组合拳的目标很明确,就是要实现能一直跑下去的可靠性和规模化。Gerardo Giaretta说这套方案不光是为了满足AI推理的需求,也是为了以后在工业和基础设施计算上的进一步发展打下基础。MWC2026就是高通展示这套本事的好机会。 这次展台上最显眼的是Qualcomm AI200机架系统,它成了高通布局数据中心AI推理的关键载体。Gerardo Giaretta解释说这个系统把加速卡、内存架构、互连技术和管理软件都揉在一起了,变成了一个能直接上手用的架子级方案。这其实正好赶上了客户们看法的转变——以前大家看AI基础设施像是看一堆零散的零件,现在更看重它是不是一个能一直稳定运行、好维护的完整系统。这个AI200机架系统内存容量突破了43TB,正好能把最新最大的旗舰AI模型跑起来。这个系统会在2026年开始往客户那边送。 关于这个AI200机架系统的特点,Gerardo Giaretta说了一大堆:它专门为了AI推理和省钱设计,里面有定制的Hexagon NPU技术;还能搞直接液冷、保密计算这些事儿;计划在2026年下半年就能卖了。在硬件规格上,用的是LPDDR内存,一块板卡就有768GB的内存;支持PCIe往上加、以太网横着连;整架子的功耗也控制在了140千瓦左右。 现场演示的时候最让人眼馋的是:单个Qualcomm AI200加速卡就能跑3500亿参数的生成式AI模型。而且这个平台还能往上扩到1万亿FP16参数的模型。这就说明内存容量、数据传输和效率要是协调好了,就能支撑起超大模型的落地。 系统级的连接和规划能力是做大规模的关键。高通在2025年12月拿下了Alphawave Semi后,高速有线连接、定制芯片还有Chiplet技术这些好东西都成了数据中心产品的一部分。这些高速低功耗的数据传输技术和高通现有的AI计算平台凑在一起,正好能对付越来越重的AI活计。 为了让这些硬件和连接技术真正落地用起来,高通还弄了个AI基础设施管理套件作为展示重点。Gerardo Giaretta说HUMAIN已经在真的数据中心里用上这套东西了,能给机架级部署提供配置、监控、规划和故障处理的全套服务。他觉得把硬件、连接技术和管理软件捏成一团才是好办法,而这种统一性和灵活性也是这个统一数据中心平台的核心优点。 Gerardo Giaretta最后总结说:高通所有的解决方案都是按照精心设计、落到实处的原则来的,核心就是把AI加速、连接技术还有软件能力都塞进一个专为实际场景打造的平台里。这次MWC2026就是展示这些进展的重要机会。高通会一直这么干下去,用系统级的产品和技术布局来帮服务商破解AI推理部署的那些难题,让大家都能跟上行业的脚步。