中国每天用这个词元的次数已超过140万亿次

3月24日,国家数据局在官方文件里给Token定了个中文名,叫词元。刘烈宏局长当天在新闻发布会上提到,到今年3月,中国每天用这个词元的次数已经超过140万亿次。跟去年年初的1000亿次比,涨了1000多倍;跟2025年底的100万亿次比,短短三个月又多了40%。刘烈宏说,词元用得这么多,说明中国的AI发展在提速。现在AI不光会聊天,还能帮忙做决定做事儿。大家都在聊的词元出海,其实就是咱们产业变强的一个信号。《人民日报》在2026年1月写了篇文章叫《漫谈词元》,说词元就是处理文本最小的那个单元。苹果中国官网、央视新闻还有中国计算机学会(CCF)这些技术资料里也都用的这个词。说白了,词元就是大模型为了干活儿方便,把数据拆开后的“最小包裹”,可以是字、词或者符号。比如“我爱中国!”这句话,就能分成“我”“爱”“中国”“!”这4个词元。如果说以前上网看流量多少,现在搞AI就得看消耗了多少词元。不管是你打的字,还是模型写的文章、认的图,都在算这个数。 这个进度大概是在2026年1月左右定下的调子,《漫谈词元》就是这时候发的文章。大家现在都习惯这么叫了。以前在2024年年初的时候,中国每天才处理1000亿次词元。到了2025年底,这个数字变成了100万亿次。紧接着到了2026年3月,只用了3个月时间,就又多出了40%多的量。