为什么token被称为“词元”?

3月25日,全国科学技术名词审定委员会发布了一条公告,把人工智能领域的token的中文名定为了“词元”,让全社会都开始使用。这次,AI视频就展示了为什么token被称为“词元”。 1985年,国务院批准成立了全国科学技术名词审定委员会,这个委员会由科学技术部和中国科学院共同建立,是一个负责审定科技名词的权威机构。吴昊、侯茜、闫文艺就是这次活动的责任编辑。 给大家介绍一下,这个“词元”的词源来自古英语的tācen,意思是“符号”或“标记”。在人工智能大模型里,“词元”就是用来存储、处理和交换信息的基本符号单元。它可以是人类语言中的词语、词串、词根、词缀、子词或单个字符,语言模型通过对“词元”序列进行建模就能展现出智能水平。“词元”这个名字里,“词”这个字点明了它在语言场景下的根源,“元”则传达出“基本单元”的意思。 现在随着大模型开始支持图像、语音和视频等多模态内容,“词元”的所指也扩展了。图像会被切分成小块并转化成嵌入序列,语音片段也能被量化编码成离散单元,这些单元在多模态模型中也被称为“词元”。这个时候的“词”就超越了人类语言意义上的词语,不过仍然保持着术语命名中普遍存在的类比思维。“词元”承载了所有模态中的离散基本单元的语义,成为了描述大模型中token的一个常用译名。 科学技术名词是传播和交流科学知识的媒介和工具。全国科学技术名词审定委员会于1985年经国务院批准成立,由科学技术部和中国科学院共建。这个委员会还聘请了很多各学科领域的著名学者和专家作为委员。“词元”这个名字符合科技名词审定原则,比如单义性、科学性、简明性和协调性。“词元”被推荐作为token中文名的是全国计算机科学技术名词审定委员会。 总之,“词元”审定后给社会各界提供了统一的表述,避免了不必要的歧义和混乱。大家以后就可以用这个名称来交流了!