国家数据局：2020 年底全国已建了10 万个高质量数据集

咱们先把话说明白，国家数据局刘烈宏给咱们透了个底：到今年3月，咱们国内每天用的Token量，也就是词元调用量，已经冲到了140万亿以上。这个数字确实厉害，充分说明中国的AI发展现在是进入了快车道。新京报贝壳财经那边3月24日也报道了，当时刘烈宏在国务院新闻办的发布会上说的，国家发展改革委党组成员、国家数据局局长刘烈宏就提到了这个数据。既然说到了Token，咱们就得聊聊数据集。国家数据局现在对数据要素很重视，要把高质量数据集给建好。他们提出了一个原则：人工智能发展到哪儿，我们就把高质量数据集建设到哪儿。具体是怎么干的呢？针对高质量数据集建设存在的“小”和“散”的问题，国家数据局联合了26个部门搞了个大动作，挑出了72家链主单位、140个先行先试单位还有104个典型案例。这样就搭建起了一个生态系统，让大伙儿一起参与进来，共同建设高质量数据集。数据标注也是一个关键环节。为了推动这个产业发展，国家数据局布局了7个城市作为先行先试点：成都、沈阳、合肥、长沙、海口、保定、大同。他们还出台了《关于促进数据标注产业高质量发展的实施意见》，遴选出47个优秀案例，甚至还组织了7次供需对接会。接下来打算怎么干？目标是面向科技创新强、基础好、产业特色鲜明的地区。他们会聚焦“知识密集型”和“技术驱动型”这两个方向，梯次布局一批数据标注产业创新试验区。另外还要持续培育市场共识，让大家愿意为高质量数据付费。要推动行业高质量数据集在交易所挂牌交易，支持流通平台提供服务。刘烈宏还透露了个好消息：到2025年底，全国已经建了超过10万个高质量数据集，总量超过890PB。咱们再来对比一下数字增长的情况：2024年初还是1000亿的时候，到2025年底增长到了100万亿。而今年3月就超过了140万亿，三个月时间又增长了40%多。这说明应用场景在不断深化，AI产业竞争力显著增强。现在大家热议的Token出海，其实就是产业竞争力强的一个标志。展望未来，国家数据局还要继续推进数据赋能AI创新发展。他们会协同各方实施新一轮行动计划：强基扩容、标注攻坚、提质增效、应用赋能、管理服务和价值释放这六大专项行动。以场景需求为牵引加快推进工作，打造出技术可行、质量有保障的AI-ready高质量数据集。最后咱们总结一下：日均Token调用量的爆发式增长（从1000亿到140万亿），显示中国AI进入了快速增长期；各种场景不断深化（能决策执行的智能体）；现在热议的Token出海就是竞争力增强的标志；截止到2025年底建成的高质量数据集超过10万个；总量超过890PB（相当于中国国家图书馆数字资源的310倍）；通过26个部门遴选出72家链主单位、140个先行先试单位和104个典型案例；布局了7个城市作为数据标注先行先试点；出台实施意见并举办7次供需对接会；遴选出47个优秀案例；梯次布局一批试验区；培育市场共识并推动交易流通；最终实现高质量数据集供给量质双升。