国家数据局:2020 年底全国已建了10 万个高质量数据集

咱们先把话说明白,国家数据局刘烈宏给咱们透了个底:到今年3月,咱们国内每天用的Token量,也就是词元调用量,已经冲到了140万亿以上。这个数字确实厉害,充分说明中国的AI发展现在是进入了快车道。新京报贝壳财经那边3月24日也报道了,当时刘烈宏在国务院新闻办的发布会上说的,国家发展改革委党组成员、国家数据局局长刘烈宏就提到了这个数据。 既然说到了Token,咱们就得聊聊数据集。国家数据局现在对数据要素很重视,要把高质量数据集给建好。他们提出了一个原则:人工智能发展到哪儿,我们就把高质量数据集建设到哪儿。具体是怎么干的呢?针对高质量数据集建设存在的“小”和“散”的问题,国家数据局联合了26个部门搞了个大动作,挑出了72家链主单位、140个先行先试单位还有104个典型案例。这样就搭建起了一个生态系统,让大伙儿一起参与进来,共同建设高质量数据集。 数据标注也是一个关键环节。为了推动这个产业发展,国家数据局布局了7个城市作为先行先试点:成都、沈阳、合肥、长沙、海口、保定、大同。他们还出台了《关于促进数据标注产业高质量发展的实施意见》,遴选出47个优秀案例,甚至还组织了7次供需对接会。 接下来打算怎么干?目标是面向科技创新强、基础好、产业特色鲜明的地区。他们会聚焦“知识密集型”和“技术驱动型”这两个方向,梯次布局一批数据标注产业创新试验区。另外还要持续培育市场共识,让大家愿意为高质量数据付费。要推动行业高质量数据集在交易所挂牌交易,支持流通平台提供服务。刘烈宏还透露了个好消息:到2025年底,全国已经建了超过10万个高质量数据集,总量超过890PB。 咱们再来对比一下数字增长的情况:2024年初还是1000亿的时候,到2025年底增长到了100万亿。而今年3月就超过了140万亿,三个月时间又增长了40%多。这说明应用场景在不断深化,AI产业竞争力显著增强。现在大家热议的Token出海,其实就是产业竞争力强的一个标志。 展望未来,国家数据局还要继续推进数据赋能AI创新发展。他们会协同各方实施新一轮行动计划:强基扩容、标注攻坚、提质增效、应用赋能、管理服务和价值释放这六大专项行动。以场景需求为牵引加快推进工作,打造出技术可行、质量有保障的AI-ready高质量数据集。 最后咱们总结一下:日均Token调用量的爆发式增长(从1000亿到140万亿),显示中国AI进入了快速增长期;各种场景不断深化(能决策执行的智能体);现在热议的Token出海就是竞争力增强的标志;截止到2025年底建成的高质量数据集超过10万个;总量超过890PB(相当于中国国家图书馆数字资源的310倍);通过26个部门遴选出72家链主单位、140个先行先试单位和104个典型案例;布局了7个城市作为数据标注先行先试点;出台实施意见并举办7次供需对接会;遴选出47个优秀案例;梯次布局一批试验区;培育市场共识并推动交易流通;最终实现高质量数据集供给量质双升。