当前,人工智能技术加速迭代,大模型应用已从以训练为主转向以推理为主。然而,传统计算架构推理环节的延迟问题日益突出,尤其在大模型推理的Decode阶段,90%以上的延迟与内存带宽不足有关。此瓶颈直接影响推理实时性和用户体验。 针对这一痛点,国内科技企业研发推出LPU(大模型推理处理器)芯片。该芯片采用TSP(时序流处理器)架构,将传统五级流水线拆分为ICU指令控制、MXM矩阵运算等五大功能切片,形成“指令垂直下发、数据水平流动”的设计思路。借助这一架构,编译器可更精确地调度底层硬件状态,减少执行过程中的不确定性。 技术参数上,LPU芯片采用14nm制程工艺,集成230MB片上SRAM,带宽最高可达80TB/s,INT8算力达到750TOPs。系统部署上,8芯片节点采用Fullmesh互联,机柜层面采用Dragonfly拓扑结构,以匹配大规模推理场景的扩展需求。测试数据显示,基于LPU的模型推理速度可达350Token/s,每百万Token成本约0.27美元,在延迟、吞吐与性价比上均优于传统GPU方案。 市场分析显示,推理芯片需求正在快速增长。数据显示,我国日均Token消耗量已从2024年初的1000亿增长至2026年2月的180万亿。预测认为,2024年全球推理AI芯片市场规模为142.1亿美元,到2031年将增至690.1亿美元,年复合增长率为25.7%。也有更激进的预测指出,2026年全球推理芯片市场规模或可达到1450亿美元,增速超过50%。 鉴于此,国产LPU芯片凭借架构创新与成本优势,显示出较强的市场潜力。目前,海外厂商Groq已推出第二代LPU并实现量产,国内企业元川微电子也发布Mountain、River系列LPU产品,显示该赛道正进入量产与规模化落地阶段。
大模型算力基础设施正在从训练走向推理,从追求峰值算力转向更关注时延、并发与成本。此变化推动产业将竞争焦点转向确定性执行、片上数据流组织与系统互联等架构层创新。能否在可控成本下实现稳定、可复制的规模部署,将决定新一代推理芯片能否把技术优势转化为持续的市场渗透力。