人工智能的“token”叫“词元”

最近，全国科学技术名词审定委员会发布了一条消息，说他们给人工智能里的一个词“token”定了个中文名，叫“词元”。这事儿还挺讲究的，专家们说他们在听取了大家的意见后，觉得这个“词元”挺合适。他们把这名字给国家发了，让大家都试试看。清华大学计算机系的东昱晓老师觉得，“词元”这个名字挺有意思，因为它把人工智能语言模型里的“token”抓住了本质。这个“token”其实就是文本切分或编码后的最小单元，可能是一个词、字符，也可能是一个词根或者子词。这个名字里的“词”强调了它和语言的关系，“元”又表示它是个基本单位，跟其他术语里的“元”也挺一致。其实“token”这个词的意思来源于古英语，“tācen”就是符号或者标记。现在的语言模型就是通过对这些token进行建模来展示智能的。不过陈熙霖老师也说了，现在大模型已经不只是处理纯文本了，还得处理图像和语音这些东西。所以这时候的“token”指的是图像块或者语音片段被切分出来的部分。这时候再用“词元”这个名字，就是在强调它作为离散基本单元的作用。虽然它现在不再只是人类语言里的词了，但我们可以把它看成广义上的“词”，这种思维在术语命名里挺常见的。比如我们平时说的“词云”、“词袋”，虽然最初也是从文本来的，现在已经变成了描述各种信息的通用词了。“词元”在中文文献和学术交流中用得越来越多，大家都挺认可的。而且这个名字符合中文的习惯，“二字词”比较好记又好传播。现在国家数据局的数据显示，2024年初的时候中国每天调用的“词元”数量有1000亿个。到了2025年底呢，这个数字已经飙升到100万亿个了。今年三月份更是突破了140万亿个！两年时间增长超过了一千倍！