机器连在一起干活,效率越来越高了

随着人工智能模型越来越庞大,光靠一台设备去干以前的活已经越来越吃力了。很多人都在琢磨怎么把多台机器连在一起干活,提高效率。有个博主最近做了个实验,就用了四台苹果Mac Studio,里面装的都是M3 Ultra芯片。这四台机器,其中两台给它塞了512GB内存,另外两台配了256GB内存。算下来这套硬件总共花了差不多4万美元。 他们通过新的高速接口把这些设备连在了一起,弄出了一个大概1.5TB的统一内存池。这样一来,就算是跑那个有6710亿参数的大家伙,硬件也能顶得住。之所以能这么快,主要是用了两项黑科技。一是那根线带宽高得吓人,高达80Gb/s,比以前那种10Gb/s的网快多了。二是搞了个远程直接内存访问,机器之间互相读写数据不用绕路经过CPU,直接从对方内存拿东西,这就省了不少时间。 在实际跑模型的时候,这四台电脑的速度比单台提升了50%,在对比传统方法时更是猛涨了122.6%。而且它还真把那个万亿参数的模型跑通了,说明这方法对付大模型是行得通的。 不过话说回来,想用这个方案也不容易。门槛太高了,普通团队真买不起这么贵的东西。而且现在只能连成一条链状的网络,没法扩展更多设备。还有软件那边老是报错不稳当,说明这东西还得修修补补。 以后要是芯片性能变强了,操作系统再开放点功能,估计用这种消费级高端硬件搭集群就会更流行。这不仅能帮中小型团队省点钱搞研究,还能推动大家在计算架构上多想办法变得更协同、更高效。这次测试不光是展示了多台机器能跑得多快,更反映了一个趋势:咱们得想办法把现有的设备连起来用好用足。