国产高速互连网络即将迎来突破

最近听说中金给了个研报，说是国内搞AI算力基础设施的力度变大了，特别是国产高速互连网络，眼看就要迎来突破了。智通财经APP也扒出了消息，中金的报告里提到，现在的AI算力集群正从几千张卡往几万张甚至几十万张卡的规模发展。而这个高速互连网络，就像是把CPU、GPU这些核心处理器连接起来的神经枢纽，直接关系到集群能不能把算力给用足。现在智算场景里的互连网主要是InfiniBand（IB）和RoCE v2这两种路子，核心技术基本还是被海外厂商给把持着。不过随着国内基建加速推进，国产高速互连网络体系好像要慢慢打破这个局面了。中金认为，国产的RDMA高速互连网络有希望通过底层架构和自己研发的硬件切入进来，给国内算力基础设施提供支持。 RDMA这技术挺关键，它能绕过主机操作系统内核和CPU调度，直接读写远端服务器内存，这样通信延迟就小了，CPU资源也不用那么浪费。现在主流的RDMA方案主要有IB、RoCE还有iWARP三种。IB是专门为了RDMA设计的原生网络，性能最好；RoCE是把RDMA架构搬到以太网里去用了。RoCE v2靠优先流量控制和显式拥塞通知这些流控手段来调优网络，能让传统有损的以太网也模拟出无损传输的效果。在前几年海外厂商霸占高端互连网络生态的大背景下，国产的RDMA高速互连网络也在慢慢突围。中科曙光推出的scale Fabric就是国内自研的400G原生无损RDMA架构。这个东西用的流控机制跟InfiniBand很像，是基于信用流控和链路层重传来的。它还用上了类IB的原生RDMA网卡和交换芯片，能跑到400Gb/s的高带宽，端侧通信延迟能控制在1微秒以下，并且实现无损传输。现在的scale Fabric已经成了国产万卡级算力集群落地的基石了。它已经在支撑中科曙光的scaleX万卡超集群实现规模化落地了。接下来它有望帮助大规模国产算力集群进入快速部署阶段。至于买哪个标的呢？中金建议关注一下中科曙光（603019.SH）。不过投资也有风险，比如国产算力互连生态要是成熟得不够好、或者建设进度跟不上预期的话，还是得留个心眼。