话说到1999年,英伟达推出了GeForce显卡,直接把图形渲染速度拉满,游戏玩家都抢疯了。谁能想到呢,十年后这块“游戏显卡”就成了AI训练的加速器。既然发现GPU天生多线程,能把几十个任务并行处理,那算法优化这事儿就得狠狠砸钱,结果计算速度十年涨了1000倍。最新的H100旗舰芯片,把800亿晶体管塞进指甲盖大小的地方,专门用来训练大模型。跟A100比起来,训练速度快了4倍,回复Prompt更是狂飙30倍。不过这价格可不便宜,五万多美元,够买一辆豪车了,但全球顶尖的模型还是抢着要。英伟达的节奏像是上了发条一样,2022年发H100,2024年就跟上Blackwell B200,晶体管增加到了2080亿,浮点性能翻了5倍。 单靠一张卡肯定不行,得靠数据中心里的几万张GPU一起干活。2019年花69亿美元买了Mellanox,这家公司掌握着InfiniBand和高速以太网技术,专门负责数据中心的网络互联。这下好了,英伟达的GPU加上Mellanox的网络,就形成了别人很难复制的计算力套餐。至于开发者生态嘛,2006年推出的CUDA是个大杀器。它把GPU并行计算这种只有博士才懂的东西,包装成了程序员熟悉的C++语法。十几年过去,基于CUDA的工具和教程铺天盖地,开发者数量早就筑起了护城河。新玩家想追上太难了,不仅得做出更好的芯片,还得让大家重新学一套语法。 AMD在23年底发的MI300性能已经超过H100了,国产芯片也在不断迭代。但真正的硬骨头在于围绕CUDA的开发者生态和网络方案。竞争者想翻盘至少得在“软件好用”和“网络效率”上同时做到极致才行。 现在的大语言模型每秒要处理海量数据,传统CPU串行计算根本顶不住。而GPU一次就能吃掉几十项任务,在这个专业AI芯片战场上,英伟达拿走了95%的份额。等到生成式AI把大语言模型炒热后,英伟达顺势坐上了美国市值第三把交椅,仅次于微软和苹果。 既然要坐稳这位置,就得靠这三把钥匙:硬核性能、网络基建还有开发生态。为了不让竞争对手赶上脚,英伟达内部信里写得直白:“你只能往前跑,停下来就会被超越。”等到2080亿晶体管的Blackwell B200出来时,那时候的浮点性能恐怕又要翻好几倍了吧?毕竟现在大家都盯着这个市场呢。 现在的AI芯片市场已经变成了英伟达的独角戏。等竞争对手真的凑齐了软硬件的全部优势时,或许才会有翻盘的机会吧?毕竟这个游戏才刚刚开始呢!