AMD发布ROCm 7.2开源计算栈：扩展新硬件支持并强化MI300X、MI350系列推理效能

AMD近日正式发布ROCm开源软件堆栈7.2.0版本，这是其异构计算领域的又一次升级。新版本通过扩展硬件支持范围并优化关键计算性能，深入强化了AMD在AI计算生态中的布局。从硬件支持来看，ROCm 7.2.0新增对Radeon AI PRO R9600D、Radeon RX 9060 XT LP、Radeon RX 7700等独立显卡的正式支持，同时纳入最新推出的锐龙AI 400系列处理器。此举在一定程度上拓宽了高性能计算与AI开发的硬件选择，使更多消费级与专业级设备能够参与AI计算任务，有助于降低开发部署成本与使用门槛。在性能优化上，新版本围绕Instinct系列加速器进行了针对性调优。MI355X上，Meta Llama 3.1 405B大模型推理性能明显提升，主要通过内核级优化与内存带宽增强实现吞吐提升、延迟下降。同时，Llama 3 70B和Llama 2 70B在MI355X、MI350X上的表现也得到优化。在MI300X上，智谱GLM-4.6的GEMM算子性能以及DeepSeek的DeepEP开源通信库表现均有改善。这些改进直接影响大模型推理的实际效率，并有助于降低AI服务的运营成本。从技术架构角度看，ROCm 7.2.0还带来HIP运行时性能提升、多GPU节点电源管理等基础设施更新。这些底层优化提升了系统稳定性与可运维性，对大规模AI集群的部署与管理具有现实价值。 AMD此次升级也体现出开源软件生态在AI计算中的作用持续上升。与专有软件栈相比，开源方案在透明度与可定制性上更具优势，更容易跟进硬件迭代与应用需求变化。ROCm的持续完善，为开发者在AMD硬件平台上开展AI开发提供了更多选择，也有助于推动更开放、多元的AI计算生态形成。

全球数字经济加速转型的背景下，基础软件的自主创新正成为科技竞争的重要领域。AMD此次迭代不仅表明了其在异构计算上的积累，也折射出算力发展的几项趋势：硬件覆盖更广、优化更精细、生态更开放。随着更多企业参与开源协作，这场面向智能时代的底层技术演进，或将对全球产业格局带来新的影响。（完）