为什么token被称为“词元”？

3月25日，全国科学技术名词审定委员会发布了一条公告，把人工智能领域的token的中文名定为了“词元”，让全社会都开始使用。这次，AI视频就展示了为什么token被称为“词元”。 1985年，国务院批准成立了全国科学技术名词审定委员会，这个委员会由科学技术部和中国科学院共同建立，是一个负责审定科技名词的权威机构。吴昊、侯茜、闫文艺就是这次活动的责任编辑。给大家介绍一下，这个“词元”的词源来自古英语的tācen，意思是“符号”或“标记”。在人工智能大模型里，“词元”就是用来存储、处理和交换信息的基本符号单元。它可以是人类语言中的词语、词串、词根、词缀、子词或单个字符，语言模型通过对“词元”序列进行建模就能展现出智能水平。“词元”这个名字里，“词”这个字点明了它在语言场景下的根源，“元”则传达出“基本单元”的意思。现在随着大模型开始支持图像、语音和视频等多模态内容，“词元”的所指也扩展了。图像会被切分成小块并转化成嵌入序列，语音片段也能被量化编码成离散单元，这些单元在多模态模型中也被称为“词元”。这个时候的“词”就超越了人类语言意义上的词语，不过仍然保持着术语命名中普遍存在的类比思维。“词元”承载了所有模态中的离散基本单元的语义，成为了描述大模型中token的一个常用译名。科学技术名词是传播和交流科学知识的媒介和工具。全国科学技术名词审定委员会于1985年经国务院批准成立，由科学技术部和中国科学院共建。这个委员会还聘请了很多各学科领域的著名学者和专家作为委员。“词元”这个名字符合科技名词审定原则，比如单义性、科学性、简明性和协调性。“词元”被推荐作为token中文名的是全国计算机科学技术名词审定委员会。总之，“词元”审定后给社会各界提供了统一的表述，避免了不必要的歧义和混乱。大家以后就可以用这个名称来交流了！