人工智能的“token”叫“词元”

最近,全国科学技术名词审定委员会发布了一条消息,说他们给人工智能里的一个词“token”定了个中文名,叫“词元”。这事儿还挺讲究的,专家们说他们在听取了大家的意见后,觉得这个“词元”挺合适。他们把这名字给国家发了,让大家都试试看。 清华大学计算机系的东昱晓老师觉得,“词元”这个名字挺有意思,因为它把人工智能语言模型里的“token”抓住了本质。这个“token”其实就是文本切分或编码后的最小单元,可能是一个词、字符,也可能是一个词根或者子词。这个名字里的“词”强调了它和语言的关系,“元”又表示它是个基本单位,跟其他术语里的“元”也挺一致。 其实“token”这个词的意思来源于古英语,“tācen”就是符号或者标记。现在的语言模型就是通过对这些token进行建模来展示智能的。不过陈熙霖老师也说了,现在大模型已经不只是处理纯文本了,还得处理图像和语音这些东西。所以这时候的“token”指的是图像块或者语音片段被切分出来的部分。这时候再用“词元”这个名字,就是在强调它作为离散基本单元的作用。虽然它现在不再只是人类语言里的词了,但我们可以把它看成广义上的“词”,这种思维在术语命名里挺常见的。 比如我们平时说的“词云”、“词袋”,虽然最初也是从文本来的,现在已经变成了描述各种信息的通用词了。“词元”在中文文献和学术交流中用得越来越多,大家都挺认可的。而且这个名字符合中文的习惯,“二字词”比较好记又好传播。 现在国家数据局的数据显示,2024年初的时候中国每天调用的“词元”数量有1000亿个。到了2025年底呢,这个数字已经飙升到100万亿个了。今年三月份更是突破了140万亿个!两年时间增长超过了一千倍!