合规框架加速落地与攻防升级交织 2026年人工智能安全趋势释放治理信号

生成式人工智能的快速发展为经济社会带来效率革新和商业模式创新，但随之而来的模型滥用、数据泄露等安全风险也在不断放大。

在此背景下，如何构建有效的AI安全治理体系成为全球共同课题。

联合实验室发布的白皮书从政策合规、风险与治理、趋势研判等维度进行了系统分析，为行业发展与监管实践提供了重要参考。

其核心观点是：2025年已成为AI治理从"原则倡导"向"制度落地"转变的关键节点。

从全球政策框架看，中国、美国、欧盟等主要经济体正在形成差异化但同向的AI治理框架。

这些框架的共同特征是强调"可审计、可问责"的核心要求，推动AI监管从软性建议转变为准入前置。

白皮书预测，未来这一能力将成为AI系统进入金融、政务等关键行业的核心门槛，合规能力缺失的企业将面临市场准入资格丧失的风险。

这意味着合规已不再是可选项，而是企业国际竞争的必要条件和核心壁垒。

与此同时，开源模型的监管博弈也在加剧。

2025年AI开源模型生态呈现爆发式增长，虽然这有助于降低技术应用门槛、推动创新扩散，但自由下载、微调及部署的特性也为恶意利用提供了可乘之机。

开源平台正通过强化审核、引入行为监控、建立开发者信誉体系等方式防控风险，但监管层面仍存在不同看法。

白皮书指出，未来开源模型治理将长期处于"鼓励创新"与"防范风险"的动态博弈中，相关主体需要持续平衡技术发展与安全合规的关系。

从安全风险演化看，当前AI面临的挑战呈现"攻击手段复杂化、风险场景多元化、危害影响扩大化"的特征。

在对抗攻防领域，攻击者已进入高维博弈阶段，利用多模态、多轮次系统化手段，通过文本、图像植入扰动诱导模型出错。

研究显示，经诗歌等形式改写的恶意指令在多个主流模型上的攻击成功率超过90%，传统提示过滤技术已难以应对。

这表明AI系统的安全防护需要升级为对"复杂系统鲁棒性"的整体考量。

AI智能体的安全风险也引发了新的监管与责任考量。

当前国际社会对AI智能体缺乏统一定义与监管标准，在金融、企业内部等应用场景中，身份认证与权限边界趋于模糊，责任归属尚不明确。

我国已在布局"智能体即服务"，未来需要通过完善相关规则引导其可控发展。

AI武器化拓展了网络攻击的新战场。

深度伪造与生成式AI的结合使其成为新型网络武器，2024年全球约67.4%的网络钓鱼攻击采用AI技术，实现诈骗脚本自动化与信息精准收集。

具身智能的发展更推动攻击从数字域延伸至物理世界。

面对传统防御手段的失效，构建"AI对抗AI"的自动化防御体系已成为必然需求。

与挑战相对应，AI安全治理正在实现从"被动防护"向"主动构建"的转变。

白皮书强调，全生命周期治理、原生安全架构、对齐研究、内容真实性治理、"AI—能源耦合"等五大趋势将共同塑造AI安全新生态。

其中，AI安全治理正从"局部防护"转向全生命周期可信化，国际社会通过NIST风险管理框架、ISO/IEC42001认证及欧盟《人工智能法案》等工具，将治理覆盖范围从模型开发延伸到部署、运维、退役等全流程，形成贯穿AI系统生命周期的安全管理体系。

人工智能安全治理正在经历从技术修补到体系重构的深刻变革。

这份白皮书的发布，不仅展现了中国在科技治理领域的前瞻思考，更折射出全球数字文明发展面临的根本性命题：当技术创新速度持续超越制度适应能力，人类需要建立怎样的新秩序，才能既释放技术红利又守护文明底线？

粤港澳大湾区的这一探索，或将为世界提供重要实践样本。