AMD发布ROCm 7.2开源计算栈:扩展新硬件支持并强化MI300X、MI350系列推理效能

AMD近日正式发布ROCm开源软件堆栈7.2.0版本,这是其异构计算领域的又一次升级。新版本通过扩展硬件支持范围并优化关键计算性能,深入强化了AMD在AI计算生态中的布局。 从硬件支持来看,ROCm 7.2.0新增对Radeon AI PRO R9600D、Radeon RX 9060 XT LP、Radeon RX 7700等独立显卡的正式支持,同时纳入最新推出的锐龙AI 400系列处理器。此举在一定程度上拓宽了高性能计算与AI开发的硬件选择,使更多消费级与专业级设备能够参与AI计算任务,有助于降低开发部署成本与使用门槛。 在性能优化上,新版本围绕Instinct系列加速器进行了针对性调优。MI355X上,Meta Llama 3.1 405B大模型推理性能明显提升,主要通过内核级优化与内存带宽增强实现吞吐提升、延迟下降。同时,Llama 3 70B和Llama 2 70B在MI355X、MI350X上的表现也得到优化。在MI300X上,智谱GLM-4.6的GEMM算子性能以及DeepSeek的DeepEP开源通信库表现均有改善。这些改进直接影响大模型推理的实际效率,并有助于降低AI服务的运营成本。 从技术架构角度看,ROCm 7.2.0还带来HIP运行时性能提升、多GPU节点电源管理等基础设施更新。这些底层优化提升了系统稳定性与可运维性,对大规模AI集群的部署与管理具有现实价值。 AMD此次升级也体现出开源软件生态在AI计算中的作用持续上升。与专有软件栈相比,开源方案在透明度与可定制性上更具优势,更容易跟进硬件迭代与应用需求变化。ROCm的持续完善,为开发者在AMD硬件平台上开展AI开发提供了更多选择,也有助于推动更开放、多元的AI计算生态形成。

全球数字经济加速转型的背景下,基础软件的自主创新正成为科技竞争的重要领域。AMD此次迭代不仅表明了其在异构计算上的积累,也折射出算力发展的几项趋势:硬件覆盖更广、优化更精细、生态更开放。随着更多企业参与开源协作,这场面向智能时代的底层技术演进,或将对全球产业格局带来新的影响。(完)