2027年咱们要搞的那个“国家关键语料库”

大家好,我是记者杨洁,今天来跟大家聊聊2027年咱们要搞的那个“国家关键语料库”。其实这个事儿跟咱们的生活密切相关,特别是随着大语言模型和人工智能技术的飞速发展,咱们的语料库也得跟上脚步。 最近,教育部、国家语委还有中央网信办刚发了个《意见》,里头说了到2027年要把“国家关键语料库”建起来,还要把那个“国家战略语言资源信息库”给搭好。刘培俊司长在新闻发布会上也提到,今年是落实《教育强国建设规划纲要》的关键年,咱们得加快试点先行的进度,在落实重点任务上见实效。 那这个“国家关键语料库”到底是啥?说白了就是把一些关键领域的大规模中文语料库、民族语言文字语料库、手语盲文语料库这些给集中起来共享。教育部语言文字信息管理司的相关负责人就说,语料库是AI和大模型技术创新的重要支撑,是经济社会信息化的基础要素,能把语言数据和信息技术这两者双向赋能。 举个例子,咱们在文化传承这块已经弄出了不少东西,比如中华思想文化术语库、甲骨文数据库这些。其中那个思想文化术语库里头有1200多条核心词,涵盖了咱们中华哲学思想和人文精神。前阵子推出的智能化学习工具“AI小语”,就是用这个术语库做训练语料、结合大模型技术弄出来的高交互平台,对传承传统文化可有用了。 到现在为止,教育部、国家语委已经联合高校、企业和科研院所搞了30多个大规模高质量的语料库,好多都已经应用到经济社会发展的关键领域里去了。 接下来就是怎么建的问题了。教育部语言文字信息管理司的负责人说了,信息技术已经融入了咱们生活的方方面面,得推动语言文字和信息技术深度融合。为了规范这个事儿,国家语委会同其他部门搞了100多项国家通用和民族语言文字信息化的标准。 面向人工智能时代,咱们得继续研究标准制定、数据标注还有数据评价这些事儿。特别是要服务教育教学,搞个大语言模型能力素养的师生版出来引导大家安全用AI。助力文化传承方面还要研制甲骨文数字化的共享技术标准。 另外不光要支持基础标准研究,高校和企业也可以自个儿搞行业标准、企业标准。还要加强跟工信部、国家民委、国家标准委这些部门的合作,把那些老规范标准修订一下,多宣传宣传。 至于人才培养这块儿呢?高校得增设语言智能、计算语言学这些交叉学科方向,把“语言文字+人工智能”的核心课给开起来。企业也得建实训基地搞技能培训,这样才能提升学生的职业技能和就业率。 最后再说一句2035年的展望吧。虽然现在还没到2035年,但咱们得用这个长远的眼光去看问题。相信通过大家的努力,“国家关键语料库”和相关的信息化工作一定能取得实实在在的成效。