机器连在一起干活，效率越来越高了

随着人工智能模型越来越庞大，光靠一台设备去干以前的活已经越来越吃力了。很多人都在琢磨怎么把多台机器连在一起干活，提高效率。有个博主最近做了个实验，就用了四台苹果Mac Studio，里面装的都是M3 Ultra芯片。这四台机器，其中两台给它塞了512GB内存，另外两台配了256GB内存。算下来这套硬件总共花了差不多4万美元。他们通过新的高速接口把这些设备连在了一起，弄出了一个大概1.5TB的统一内存池。这样一来，就算是跑那个有6710亿参数的大家伙，硬件也能顶得住。之所以能这么快，主要是用了两项黑科技。一是那根线带宽高得吓人，高达80Gb/s，比以前那种10Gb/s的网快多了。二是搞了个远程直接内存访问，机器之间互相读写数据不用绕路经过CPU，直接从对方内存拿东西，这就省了不少时间。在实际跑模型的时候，这四台电脑的速度比单台提升了50%，在对比传统方法时更是猛涨了122.6%。而且它还真把那个万亿参数的模型跑通了，说明这方法对付大模型是行得通的。不过话说回来，想用这个方案也不容易。门槛太高了，普通团队真买不起这么贵的东西。而且现在只能连成一条链状的网络，没法扩展更多设备。还有软件那边老是报错不稳当，说明这东西还得修修补补。以后要是芯片性能变强了，操作系统再开放点功能，估计用这种消费级高端硬件搭集群就会更流行。这不仅能帮中小型团队省点钱搞研究，还能推动大家在计算架构上多想办法变得更协同、更高效。这次测试不光是展示了多台机器能跑得多快，更反映了一个趋势：咱们得想办法把现有的设备连起来用好用足。