40张ai加速卡，28个pflops的算力

最近大家都在聊曙光搞出的那个scaleX40，说是超节点，其实也是AI算力的一个新形态。我有个做互联网的朋友说，现在的企业级用户挺纠结，既想要那种顶天立地的大算力搞最前沿的探索，又不想一下子摊子铺太大，想从小规模试错起。这次的40卡超节点，算是在大算力同架构下给了个中等规模的好起点。这东西最厉害的地方就是基于系统级的创新设计，说白了就是找准了“甜点”点。首先就是那个“买得起”。以前买传统超节点那可是动辄过亿的投入，还得花大钱改机房、铺线缆、养专业运维队，部署周期又长又麻烦。现在这个scaleX40不一样了，直接把价格拉到了千万级别。而且它用了那种无线缆正交架构，加上19英寸的标准箱子设计，真的就是推个机柜进去，几小时就能搞定部署。这就让绝大部分企业都能入手了。再来说“用得上”。这价格几乎就是8卡服务器的级别，但是装了40张AI加速卡，总共有28个PFLOPS的算力（FP8精度），HBM总显存超5TB，访存带宽也有80TB/s。大家应该知道，大模型要用到这么多算力。虽然说是40张卡全互联Scale-Up，但内存语义统一编址了，基本够跑千亿级别的模型训练和推理了。最后一个关键词才是关键：“用得好”。买得起、能用上还不够，对于那些不懂运维开发的用户来说，能不能用好这个产品太重要了。中科曙光在这方面下了功夫：一是配了个ParaStor存储系统，存算网三级强协同，训推效率、带宽和利用率都上去了；二是给了一站式的SothisAI平台，能把开发、调度、运维这些事都包了；三是支持单Pod和双Pod灵活扩展，能纵向Scale-up扩展也能横向Scale-out扩展。中科曙光自己的说法是，scaleX40不光是性能提升，更是重构了算力交付逻辑。他们之前还有scaleX640和万卡集群呢，这次算是高端算力普惠战略的延续。我看了看之前用scaleX640的那个头部AI大模型厂商的表现，自动调优出来的效果比专家还棒，扩展效率高达99.63%。这家公司说接下来要在更大规模上做高效的端到端训练和推理，在大规模PD分离上还要和曙光继续合作。总之这东西能不能打动企业级用户，就看后面产品交付得咋样了。