问题:随着大模型训练与推理需求快速增长,AI算力供给面临“成本高、利用率低、调度困难、隔离不足”等挑战。尤其Kubernetes逐渐成为企业基础设施底座的背景下,GPU等异构资源分配仍存在粒度偏粗、跨节点协同不足、调度策略与业务不匹配等痛点:一上,业务峰谷波动让GPU闲置与争抢同时出现;另一方面,训练任务常常跨多机多卡,对互联带宽与资源编排提出更高要求;同时,数据合规与机密计算需求上升,传统隔离方式容易带来性能损耗,影响生产落地。 原因:这些矛盾的根源,于AI基础设施正从“单机单栈”走向“云原生规模化”。首先,混合云与多云逐渐成为常态,资源来源更分散、编排更复杂,需要更通用的标准与生态协作。其次,AI任务从单一训练扩展到训练、推理、代理式应用以及批流混合负载,调度需要更精细。再次,GPU等关键能力长期由厂商工具链主导,接口与实现差异抬高平台适配成本,也难以沉淀跨行业复用的工程模式。推动核心组件进入社区治理,有助于在更广泛场景中迭代验证,逐步形成可持续的标准化能力。 影响:此次在KubeCon Europe大会上的动作,被认为将加快云原生AI生态的协同进程。据介绍,英伟达将动态资源分配(DRA)GPU驱动捐赠给CNCF,并由社区主导后续开发与管理。这意味着有关能力从单一厂商维护转向开放治理,有利于提升透明度与可移植性,降低企业在异构环境中的集成与迁移成本。技术层面,DRA驱动面向Kubernetes中的AI工作负载效率优化,通过支持GPU资源动态分配,使开发者可按任务需求调整算力配置,在大规模训练等场景提升资源利用率与作业吞吐。其整合多进程服务与多实例GPU等能力,可实现单卡共享或实例化切分,更贴合不同负载的算力需求。此外,借助跨系统互联能力,多台服务器的GPU资源可更高效地组织为计算池,为超大规模训练提供更强的资源弹性。更细粒度的资源描述与配置,也有助于在计算单元、显存带宽、网络连接等维度进行精细编排,减少“算力堆上去但效率不提升”的情况。 在安全与合规上,英伟达联合CNCF Confidential Containers社区,推进支持GPU加速的Kata Containers方案,目标是保留硬件加速能力的同时强化容器隔离,为AI场景构建更适配的机密计算环境。业内普遍认为,企业级AI落地不仅取决于算力与模型,还取决于安全边界、数据流转与合规治理能否与性能目标兼顾。将安全能力纳入云原生链路并以开源方式推进,有望降低企业在“性能与安全”之间的取舍成本。 对策:从建设路径看,开源与基金会治理不只是“把代码放出来”,更关键在于建立可持续的协作机制与可验证的工程标准。为此,英伟达同步推动多项面向AI任务的云原生项目进入更开放的生态体系:其一,将KAI Scheduler纳入CNCF Sandbox,通过面向AI负载优化调度策略,提升GPU等资源分配与业务特征的匹配度;其二,开源NemoClaw与OpenShell Runtime等工具,为自主代理的安全运行与复杂工作负载管理提供更标准化的运行与治理支撑。对企业用户而言,如果这些项目在社区中形成稳定迭代和兼容性保障,将有助于构建更可复制的AI基础设施方案,推动从“试点”走向“规模化生产”。 前景:从趋势看,AI基础设施正呈现三上演进:一是从“硬件驱动”转向“软硬协同”,通过更精细的资源编排提升单位算力产出;二是从“单域优化”走向“跨域协同”,在多云、跨节点、跨集群场景下寻求统一抽象与标准接口;三是把安全能力前置到架构层,让机密计算、隔离与审计逐步成为默认能力。此次将关键驱动与相关工具纳入更开放的云原生生态,有望吸引更多开发者与企业参与共建,加快企业级AI基础设施的标准化,并在更广泛行业中验证与落地。与此同时,开源项目能否形成长期竞争力,仍取决于社区治理质量、兼容性测试体系、文档与运维友好度,以及与现有云平台、硬件与软件栈的协同程度。
从“单点工具”转向“社区共建”,从“资源可用”走向“资源高效且可信”,此次捐赠与诸多开源动作表达出清晰信号:算力基础设施的竞争,正在从硬件堆叠转向软硬协同与生态治理能力的较量。面向新一轮产业变革,只有以开放标准推动互联互通、以共同治理提升安全可控,才能让技术创新更快转化为面向各行业的生产力。