ai 芯片选择啥存储方式,大家最近讨论得挺热火朝天的。英伟达的老大黄仁勋把他们为啥死磕

AI芯片选择啥存储方式,大家最近讨论得挺热火朝天的。英伟达的老大黄仁勋把他们为啥死磕高带宽内存的想法给大伙儿掰开了揉碎了说了一通。现在AI技术那是真猛,哪儿都能插一脚,逼着算力需求蹭蹭往上涨。GPU加上配套的存储系统,性能好不好、花得值不值钱,直接关系到AI技术能不能普及起来,产业能不能升级。在这种情况下,关于AI芯片用啥内存的路子,大伙儿越吵越热闹。高速但是容量小的静态随机存取存储器SRAM,跟那个高带宽、大容量的HBM,现在成了大家嘴边的焦点。最近在一个行业活动上,黄仁勋把业内有些人想拿SRAM代替HBM的想法好好盘了盘。他不光是说哪一种好选哪一种不好选,还让人明白造那种大规模、用得住的AI基础平台得按啥套路走。 黄仁勋先夸了夸SRAM的速度。他说实话,对于某些工作任务来说,SRAM那访问速度简直快得吓人。这种不用刷新、靠触发器存东西的静态特性,特别适合那些对延迟特敏感的活儿,这也是大家觉得它能顶替HBM的一个基础。最近也有些搞SRAM加速器的方案,或者是在实验室环境里做的展示,确实在一些测试里表现不错。 不过话又说回来,黄仁勋话锋一转,指出来SRAM用在正式的生产级AI系统上有个大麻烦:容量不够用。他说现在那些AI模型,像大语言模型、多模态模型什么的,参数多得不得了。SRAM受限于物理结构本身存不下那么多东西,而且存的越多越贵。现在那种典型的SRAM方案最多能装下的模型量,大概也就只有HBM能装的百分之一那么点。 要是跑个模型需要的数据量超过了SRAM那个有限的容量,系统就不得不多跑去外面找数据搬过来搬过去。这样一来本来的速度优势全没了,甚至可能因为搬数据变成新的堵点。更别提AI工作本身变化多端不好预测了。现在模型架构还在变呢,不同的模型对计算硬件需求不一样——有的为了装下庞大参数就特别需要显存容量;有的为了处理数据流就得要很高的内存带宽;还有的就是得靠GPU之间的那种高速互联(比如NVLink)才行。 更麻烦的是,同一个模型在不同阶段或者版本升级之后消耗资源的模式也会变。“要是硬件设计光盯着某一种特别特定的工作任务使劲优化,比如只盯着SRAM那种架构做文章,那等到活儿的类型一变,这些花钱买的好东西就很可能变得没什么用。”黄仁勋强调。他觉得在数据中心里大家伙儿用的机器得灵活点才行。那种可能在5%到10%的任务上能跑到极限速度却对付不了剩下90%的普通活儿的方案,从长远的经济账来看并不划算。 所以英伟达还是在自家高端AI平台上坚持用HBM这条路子。HBM靠3D堆叠这种先进封装技术在那么小的地方塞进去了比传统内存多得多的内容和带宽,电也省不少。虽说单个HBM的材料成本比SRAM要高一点儿,“可选性”对黄仁勋来说可是个宝贝。它能跟着算法和模型变来变去一起进化。 那种值大钱的AI加速卡在跑上几星期甚至几个月的时候还能保持很高的利用率。轻松对付模型变大、上下文窗口变长、多模态混在一起这些压力。有人问说开放权重的模型火了会不会让大家不那么依赖英伟达那种高性能的硬件了?“黄仁勋觉得这俩没关系。”他解释说模型放开了、标准统一了不代表对底层硬件的要求就低了。 反倒是因为那些开放模型把更复杂的功能和更长的上下文加进去了,对内存容量和带宽的要求只会更大。英伟达砸那么多钱搞集成了HBM的复杂系统,就是想弄个路子宽、适应力强的硬件平台。“这样一来既不会让客户被锁死在那种窄窄的场景里动弹不得,”也能让自家技术路线扛得住AI模型架构快速变化带来的冲击。 黄仁勋的这番话把AI算力建平台时怎么平衡短期成本和长期效果、怎么选是把路走窄还是宽这些事讲得挺透彻。在AI技术发展这么快的时候选啥存储技术远不是简单比比谁跑得快或者算算账就行。“得对技术发展的趋势、实际用起来的复杂情况以及硬件能不能用很久都得好好琢磨琢磨才行。”英伟达坚持HBM的路线反映了他们对AI工作性质的理解和想建个稳当的算力基础的长久打算。 这场关于SRAM和HBM的争论也说明大家现在不单纯看机器性能最高是多少了。“AI硬件比赛现在正在往兼顾效率、灵活性还有整体拥有成本的深水区走。”以后大家怎么平衡技术创新、控制成本还有构建生态系统都得好好想办法应对才行。