北大团队研制高能效专用计算芯片突破算力与能耗瓶颈为智能应用提速

当前，人工智能应用的快速发展对计算系统提出了更高要求。从社交平台的内容推荐到电商网站的商品展示，这些日常可见的智能服务背后，都依赖计算系统海量数据中进行高速运算。然而，传统数字芯片在处理此类复杂任务时，往往受限于速度与能耗的双重压力，成为实时智能应用更提升的关键瓶颈。问题的根源在于传统计算架构本身的局限。非负矩阵分解是机器学习中的核心任务之一，本质上是从海量且复杂的用户行为数据、图像像素信息等中提取潜在模式与特征，广泛应用于图像分析、信息聚类、个性化推荐等场景。但其计算过程需要同步求解两个矩阵，计算逻辑复杂。传统数字芯片以串行计算为主，难以高效支撑这类需求，容易成为实时智能系统的“卡点”。为突破该瓶颈，北京大学孙仲研究员团队将研究重点转向模拟计算。团队研制出基于阻变存储器的非负矩阵分解模拟计算求解器，核心思路是针对特定且计算量巨大的任务设计专用硬件，而不是继续依赖通用计算架构。通过电路设计与算法协同优化，研究团队在阻变存储器阵列上构建了紧凑的模拟电路，并提出电导补偿技术，使核心计算步骤实现“一步求解”，从而在芯片面积与能耗上获得明显改善。实验结果验证了该方案的可行性与效果。研究团队实验室搭建原型系统并完成多组测试：系统能够对彩色图像进行高质量分解，信噪比损失很小；在电影推荐数据集训练任务中，精度也与数字芯片接近。系统级评估显示，在网飞规模数据集的推荐系统训练任务中，该模拟求解器的计算速度较先进数字芯片提升约12倍，能效比提升超过228倍。对应的成果已发表于国际期刊《自然·通讯》。这项工作不仅是一次器件与电路层面的改进，也为非负矩阵分解等约束优化问题的实时求解提供了新的技术路径，展示了模拟计算在处理复杂现实数据上的潜力。未来，这类高能效专用芯片有望提升个性化推荐的实时响应能力，并为生成式人工智能训练提供更节能、更快速的算力支持。从更宏观的角度看，该成果拓展了高效计算架构的应用边界，也为人工智能时代的算力与能耗挑战提供了新的思路。随着后续研究推进及产业化加速，此类高能效专用计算架构有望在更多关键领域落地应用，为下一代智能计算技术竞争提供支撑。

在数字化与智能化加速融合的背景下，算力已成为推动科技发展的关键基础。北京大学团队的该成果，为缓解算力瓶颈提供了新的方向，也反映了我国在前沿技术领域的自主创新能力。下一步，如何把实验室成果转化为可规模化应用的产品——并在更多场景中验证价值——仍有待业界持续关注与探索。