海光靠x86的兼容性在信创市场混得挺滋润，腾靠着超节点能力还在死守着超大模型训练这块地。

咱们先来聊聊未来的事儿。到了2026年，大家都在搞推理，毕竟AI产业的重心已经从训练转向了推理。有三驾马车在推着这事跑：每天要消耗50万亿Token，一次调用的Token变多了，还有Agentic AI这种技术让推理变成了连续的过程。训练是追求单卡算力极致，而推理更看重性价比、时延和能效比。所以不同的厂商现在都在抢地盘，机会窗口拉开了。海光靠着x86的兼容性在信创市场混得挺滋润，昇腾靠着超节点能力还在死守着超大模型训练这块地。云天励飞这种新玩家也出来搅局了，他们押注PD分离架构，想用预填充加解码的专用芯片来搞效率。不过话说回来，不管是海光还是昇腾，或者云天励飞，大家最后都得面对一个问题：能不能在完全市场化的场景里让客户主动掏钱？这里面涉及到一个很关键的东西——软件栈。现在国产AI芯片要赢，光硬件参数高没用，得看软件栈成熟不成熟。英伟达的CUDA就是个典型例子，它能把那么多开发者聚起来，就是因为它有几百万开发者和十年沉淀的代码库做支撑。国产厂商也在摸索怎么应对这个难题。有些厂商选择自建生态，像昇腾那样用MindSpore和CANN把工具链搭起来；有的选择兼容移植，比如海光的DCU就让CUDA代码一键就能跑；还有的搞异构调度，像DeepLink试图用中间件屏蔽底层差异。兼容模式虽然能很快导入现成的应用，但可能让国产平台长期当别人的附庸；要是哪天CUDA在兼容性上加限制，这种依附式发展就难以为继了。咱们再回到DeepLink这个方案上。上海人工智能实验室搞出来的这个多元算力混合推理加速方案最近挺火的。海光也跟着凑热闹宣布要把DCU算力接进去做测试。看着像是简单的“拼图”，其实是告诉大家国产芯片开始从“单打独斗”转向“系统整合”了。DeepLink已经把昇腾、平头哥、沐曦、天数智芯、寒武纪这些国产算力都给拉进来了。真正让人琢磨不透的是：各家厂商本来各走各的路，现在非要凑一块儿听调度平台指挥，差异化的路子还能走多远？这三条路线各有各的门道。第一个就是全栈自研派，像华为昇腾从910B/C芯片到CANN算子库再到MindSpore框架都自己搞定了一套闭环生态。他们弄了个384节点的超大规模训练集群能输出300PFlops算力，在国产阵营里算是老大。但代价也不低：开发者得重新学一套工具链。第二个是借势兼容派，像海光信息拿到了x86指令集授权打造出C86+GPGPU矩阵。金融、能源这些政企客户不用怎么改就能把国产算力塞到现有的IT基础设施里去；PyTorch、TensorFlow的代码几乎是无感迁移。第三个是性能对标派，像寒武纪、沐曦、摩尔线程这些厂商用参数说话。寒武纪思元590把FP16算力推到了345TFLOPS还塞进了96GB HBM2e显存；沐曦曦云C500主打FP8精度与千卡集群；摩尔线程更是用“国产GPU第一股”的名头证明全功能路线也能跑出4.38亿元营收（其中AI智算贡献了3.36亿元），目标直指英伟达A100。 DeepLink实测数据显示：在千卡规模的推理集群里用异构调度能把单次推理时延拉低34.5%，吞吐提升32%。不过这更多是解决“能用”的问题，“好用”还得靠长尾模型、科学计算这些场景的软件栈不断优化才行。至于软件栈这道坎儿什么时候才能真正跨过去？可能还得等一段时间。