最近大家都在聊曙光搞出的那个scaleX40,说是超节点,其实也是AI算力的一个新形态。我有个做互联网的朋友说,现在的企业级用户挺纠结,既想要那种顶天立地的大算力搞最前沿的探索,又不想一下子摊子铺太大,想从小规模试错起。这次的40卡超节点,算是在大算力同架构下给了个中等规模的好起点。这东西最厉害的地方就是基于系统级的创新设计,说白了就是找准了“甜点”点。 首先就是那个“买得起”。以前买传统超节点那可是动辄过亿的投入,还得花大钱改机房、铺线缆、养专业运维队,部署周期又长又麻烦。现在这个scaleX40不一样了,直接把价格拉到了千万级别。而且它用了那种无线缆正交架构,加上19英寸的标准箱子设计,真的就是推个机柜进去,几小时就能搞定部署。这就让绝大部分企业都能入手了。 再来说“用得上”。这价格几乎就是8卡服务器的级别,但是装了40张AI加速卡,总共有28个PFLOPS的算力(FP8精度),HBM总显存超5TB,访存带宽也有80TB/s。大家应该知道,大模型要用到这么多算力。虽然说是40张卡全互联Scale-Up,但内存语义统一编址了,基本够跑千亿级别的模型训练和推理了。 最后一个关键词才是关键:“用得好”。买得起、能用上还不够,对于那些不懂运维开发的用户来说,能不能用好这个产品太重要了。中科曙光在这方面下了功夫:一是配了个ParaStor存储系统,存算网三级强协同,训推效率、带宽和利用率都上去了;二是给了一站式的SothisAI平台,能把开发、调度、运维这些事都包了;三是支持单Pod和双Pod灵活扩展,能纵向Scale-up扩展也能横向Scale-out扩展。 中科曙光自己的说法是,scaleX40不光是性能提升,更是重构了算力交付逻辑。他们之前还有scaleX640和万卡集群呢,这次算是高端算力普惠战略的延续。我看了看之前用scaleX640的那个头部AI大模型厂商的表现,自动调优出来的效果比专家还棒,扩展效率高达99.63%。这家公司说接下来要在更大规模上做高效的端到端训练和推理,在大规模PD分离上还要和曙光继续合作。 总之这东西能不能打动企业级用户,就看后面产品交付得咋样了。