ai语料库，全球22个高质量子数据集

2020年12月，美国Eleuther AI开源社区推出The Pile，整合了全球22个高质量子数据集。这个825GiB未压缩的数据集包含约2000亿词元，覆盖学术、图书、新闻、代码等22个领域，被业内视为开源大模型的通用基准。给全球AI开发者提供了免费的训练素材。 MIT计算生理学实验室和贝斯以色列女执事医疗中心在2019年发布了MIMIC-CXR，2020年又推出了MIMIC-IV。这两个医疗语料库的总部都在美国波士顿。MIMIC-IV拥有超过50万例住院患者的电子病历，MIMIC-CXR则包含了65万张胸部X光影像和对应的临床报告。这一系列数据来自真实的临床场景，经过全流程合规脱敏和标准化标注，是医疗大模型训练的黄金标准，已被超过1万篇顶会论文引用。 2025年7月，上海市规划和自然资源局牵头研制的上海市规划资源领域专项语料库正式亮相。该语料库覆盖了自然资源全领域，包括规划编制、测绘地理等核心业务板块。它整合了学科教材、政策法规、技术标准等多类型数据，其中包含1200余份技术标准和5.7万项近20年的城建档案成果。目前已归集的数据资产达到40TB，相当于10万部高清电影的容量，远期规划可达200TB。广州市社会科学重点实验室研发了AI-Dim Sum粤语语料库平台并在2025年12月发布。这是国内规模领先的粤语多模态AI专项语料库，其核心内容涵盖文本、语音音视频、多模态素材和安全评测体系四大板块。它收集了超1亿字的规范处理文本，涵盖新闻、文学等多领域；语音方面完成了3000小时的高保真标注，整合了1TB以上音视频资料；多模态素材中包含岭南文化相关的1万张图像；安全体系则拥有6669条权威词条和30000条扩展词条。此外还有超1万句生活场景音文对照语料和超过20万道多模态评测题。目前国内外机构已经推出多款具备行业影响力的AI语料库产品，覆盖通用、医疗、政务、方言、代码等核心赛道。以上介绍了代表性的几款产品。