国产高速互连网络即将迎来突破

最近听说中金给了个研报,说是国内搞AI算力基础设施的力度变大了,特别是国产高速互连网络,眼看就要迎来突破了。智通财经APP也扒出了消息,中金的报告里提到,现在的AI算力集群正从几千张卡往几万张甚至几十万张卡的规模发展。而这个高速互连网络,就像是把CPU、GPU这些核心处理器连接起来的神经枢纽,直接关系到集群能不能把算力给用足。 现在智算场景里的互连网主要是InfiniBand(IB)和RoCE v2这两种路子,核心技术基本还是被海外厂商给把持着。不过随着国内基建加速推进,国产高速互连网络体系好像要慢慢打破这个局面了。中金认为,国产的RDMA高速互连网络有希望通过底层架构和自己研发的硬件切入进来,给国内算力基础设施提供支持。 RDMA这技术挺关键,它能绕过主机操作系统内核和CPU调度,直接读写远端服务器内存,这样通信延迟就小了,CPU资源也不用那么浪费。现在主流的RDMA方案主要有IB、RoCE还有iWARP三种。IB是专门为了RDMA设计的原生网络,性能最好;RoCE是把RDMA架构搬到以太网里去用了。RoCE v2靠优先流量控制和显式拥塞通知这些流控手段来调优网络,能让传统有损的以太网也模拟出无损传输的效果。 在前几年海外厂商霸占高端互连网络生态的大背景下,国产的RDMA高速互连网络也在慢慢突围。中科曙光推出的scale Fabric就是国内自研的400G原生无损RDMA架构。这个东西用的流控机制跟InfiniBand很像,是基于信用流控和链路层重传来的。它还用上了类IB的原生RDMA网卡和交换芯片,能跑到400Gb/s的高带宽,端侧通信延迟能控制在1微秒以下,并且实现无损传输。 现在的scale Fabric已经成了国产万卡级算力集群落地的基石了。它已经在支撑中科曙光的scaleX万卡超集群实现规模化落地了。接下来它有望帮助大规模国产算力集群进入快速部署阶段。 至于买哪个标的呢?中金建议关注一下中科曙光(603019.SH)。不过投资也有风险,比如国产算力互连生态要是成熟得不够好、或者建设进度跟不上预期的话,还是得留个心眼。