问题:随着数字经济快速发展,如何以更高质量的数据供给支撑技术迭代与应用落地,成为推动产业升级和提升国际竞争力的关键课题。
一方面,大模型等新技术对数据规模、质量、合规性提出更高要求;另一方面,产业端希望将能力从“能对话”进一步拓展到“能决策、能执行”的智能化应用,迫切需要稳定、可靠、可复用的数据底座与工程化体系。
原因:在政策引导与多方协同推动下,我国数据基础设施与数据资源体系建设持续提速。
发布会信息显示,截至2025年年底,全国已建成高质量数据集超过10万个,总体量超过890PB,数据供给能力显著增强。
今年3月我国日均词元调用量已超过140万亿,短期内保持较快增势。
调用量快速提升,折射出三方面因素:其一,算力与平台能力持续提升,推动模型训练与推理服务规模化;其二,政务、工业、金融、教育、文旅等场景加速落地,带动需求持续扩大;其三,高质量数据集建设取得阶段性成效,为模型能力提升和应用迭代提供了“燃料”和“原料”。
从数据要素角度看,数据供给的扩容与质量提升,正在与技术创新形成相互促进的良性循环。
影响:词元调用量的增长不仅是技术热度的“温度计”,更是产业应用深度的“晴雨表”。
一是应用形态加快演进。
相关能力正从基础交互向复杂任务处理拓展,在流程自动化、智能客服、研发辅助、风险识别、内容生产等领域加速渗透,并向更强的综合协同与执行能力升级。
二是产业竞争力增强。
随着服务能力提升与生态完善,国内企业在产品化、工程化、场景化方面形成积累,“服务走出去”等现象增多,反映出供给侧能力与商业模式的成熟度提升。
三是数据要素价值加速释放。
高质量数据集数量与规模的扩张,有助于降低重复采集与重复标注成本,提升模型训练与评测的可比性与可复用性,推动数据从资源向资产、从要素向价值转化,为实体经济数字化转型提供更坚实的基础支撑。
对策:下一步工作的重点在于坚持以应用为牵引、以质量为核心、以治理为保障,系统推进数据赋能创新。
国家数据局表示,将协同各方深入实施新一轮高质量数据集建设行动计划,围绕强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放等方向持续发力。
具体而言:在供给端,通过扩容与标准化建设提升可用数据规模;在关键环节,通过标注与评测攻关提升数据可训练、可验证能力;在应用端,推动数据集与行业场景对接,形成可复制、可推广的解决方案;在治理端,完善管理服务与质量保障体系,推动数据开发利用在合规、可控的轨道上运行。
以“可用、好用、管用”为目标,打造技术可行、实用便捷、质量可控的“就绪度高”的数据集供给体系,将成为推动产业持续向前的重要抓手。
前景:展望未来,词元调用量的快速增长预计仍将延续,但增长逻辑将从“规模扩张”逐步转向“质量提升与价值创造”。
随着行业数据进一步沉淀、数据治理体系不断完善,以及多场景对智能化能力提出更精细的要求,数据与应用将更紧密地结合,推动形成从数据生产、加工标注、训练评测到部署应用的完整链条。
与此同时,数据安全与个人信息保护等底线要求将更加突出,合规治理能力将成为产业竞争力的重要组成部分。
可以预期,以高质量数据集为基础、以场景落地为牵引的创新路径,将为数字中国建设注入更强动能,并在更广范围内带动产业升级与社会治理能力提升。
词元调用量的快速攀升不仅是一组技术指标,更是我国数字经济活力和产业升级动能的集中体现。
坚持以高质量数据供给带动创新应用落地,形成数据要素与产业发展相互促进的良性格局,将为我国培育新质生产力、提升国际竞争力提供更加坚实的支撑。