gerardo giaretta：用系统级解决方案解决数据中心ai 推理难题

就在巴塞罗那MWC2026展会的这档口，高通的Gerardo Giaretta已经把一个新办法告诉了大伙儿，那就是用系统级的解决方案来解决数据中心AI推理里面的规模和效率难题。这篇文章里他是这么说的：当前AI给数据中心带来的影响已经从纸上谈兵变成了真刀真枪的实际应用，随着模型越来越复杂、处理量越来越大，大家的部署模式也得跟着变，服务商们现在急得不行，迫切需要在规模、效率还有运营复杂程度之间找到那个平衡点。Gerardo Giaretta表示，面对这一行业的大变动，高通一直把心思放在自家经过验证的系统级优势上，想办法把它用到不断进化的AI推理需求中去，给行业提供真正能用的东西。其实早在过去的一年里，高通就一直在整合三个关键的东西：一是高性能又省电的AI加速技术；二是设计机架级系统的本事；三是管大规模部署和管理的配套软件。这套组合拳的目标很明确，就是要实现能一直跑下去的可靠性和规模化。Gerardo Giaretta说这套方案不光是为了满足AI推理的需求，也是为了以后在工业和基础设施计算上的进一步发展打下基础。MWC2026就是高通展示这套本事的好机会。这次展台上最显眼的是Qualcomm AI200机架系统，它成了高通布局数据中心AI推理的关键载体。Gerardo Giaretta解释说这个系统把加速卡、内存架构、互连技术和管理软件都揉在一起了，变成了一个能直接上手用的架子级方案。这其实正好赶上了客户们看法的转变——以前大家看AI基础设施像是看一堆零散的零件，现在更看重它是不是一个能一直稳定运行、好维护的完整系统。这个AI200机架系统内存容量突破了43TB，正好能把最新最大的旗舰AI模型跑起来。这个系统会在2026年开始往客户那边送。关于这个AI200机架系统的特点，Gerardo Giaretta说了一大堆：它专门为了AI推理和省钱设计，里面有定制的Hexagon NPU技术；还能搞直接液冷、保密计算这些事儿；计划在2026年下半年就能卖了。在硬件规格上，用的是LPDDR内存，一块板卡就有768GB的内存；支持PCIe往上加、以太网横着连；整架子的功耗也控制在了140千瓦左右。现场演示的时候最让人眼馋的是：单个Qualcomm AI200加速卡就能跑3500亿参数的生成式AI模型。而且这个平台还能往上扩到1万亿FP16参数的模型。这就说明内存容量、数据传输和效率要是协调好了，就能支撑起超大模型的落地。系统级的连接和规划能力是做大规模的关键。高通在2025年12月拿下了Alphawave Semi后，高速有线连接、定制芯片还有Chiplet技术这些好东西都成了数据中心产品的一部分。这些高速低功耗的数据传输技术和高通现有的AI计算平台凑在一起，正好能对付越来越重的AI活计。为了让这些硬件和连接技术真正落地用起来，高通还弄了个AI基础设施管理套件作为展示重点。Gerardo Giaretta说HUMAIN已经在真的数据中心里用上这套东西了，能给机架级部署提供配置、监控、规划和故障处理的全套服务。他觉得把硬件、连接技术和管理软件捏成一团才是好办法，而这种统一性和灵活性也是这个统一数据中心平台的核心优点。 Gerardo Giaretta最后总结说：高通所有的解决方案都是按照精心设计、落到实处的原则来的，核心就是把AI加速、连接技术还有软件能力都塞进一个专为实际场景打造的平台里。这次MWC2026就是展示这些进展的重要机会。高通会一直这么干下去，用系统级的产品和技术布局来帮服务商破解AI推理部署的那些难题，让大家都能跟上行业的脚步。