山东启动重点行业语料库建设攻坚 加速制造业数字化转型

当前,制造业正加速向数字化、网络化、智能化转变;在研发设计、生产组织、质量检测等环节,数据已成为提升效率和竞争力的关键。但现实中,许多行业仍被"数据分散、口径不一、质量参差、难以复用"困扰。同一指标在不同企业和系统间缺乏统一标准,文本、图像、表格等多源数据缺少系统管理,这使得算法训练和跨企业协作成本高企,制约了产业数字化推进。 针对此短板,山东以揭榜挂帅方式组织行业语料库建设。这种方式的核心是用具体任务驱动,以实际效果论成败。制造业数据具有多模态和强行业属性特征,既包括工艺参数、设备台账等结构化数据,也包括检验报告、维修记录、图纸影像等非结构化数据。若缺少清洗、去噪和标注规范,这些数据难以形成可持续迭代的资源体系。同时,工业场景对数据的准确性、时效性和可追溯性要求更高,单靠企业各自努力难以产生规模效应,需要省级层面推进,建立可复制、可推广的行业标准和公共底座。 此次山东聚焦高端装备、烟草制品、农副食品加工、家具制造、木材加工、皮革毛皮及其制品制鞋、仪器仪表制造、废弃资源综合利用等八个行业,重点推进行业关键数据技术攻关、行业数据标准研制、高质量语料库打造及应用落地。涉及的语料将汇聚工业制造重点行业在基础研究、产品研发、生产管理、质量检测等关键环节的知识,通过对结构化、半结构化和非结构化数据的治理加工,为自然语言处理、计算机视觉、机器学习等任务提供支撑,服务行业通用模型或场景模型的开发和训练。业内认为,这将有助于降低行业数字化应用门槛,缩短从数据到应用的距离,提高模型在垂直领域的可用性和稳定性,更激发制造业数据要素价值。 在项目管理上,山东设定了明确的验收标准:行业语料库数据量不低于10万条,具备较高的数据质量和应用价值;项目需通过第三方测评,确保客观评价。同时,山东鼓励各行业语料库项目加快资源整合,形成统一规范、互联互通的数据体系,并在合规前提下开放共享公共语料,带动更多中小企业参与数字化转型。 从长远看,行业语料库建设不是一次性工程,而是需要持续更新迭代的基础性工作。随着标准完善、资源整合和应用扩展,语料库将成为制造业提质增效的重要基础设施,既可为研发设计和工艺优化提供知识支撑,也能为质量追溯、安全生产、节能降耗等提供数据支撑。形成可复制的解决方案并在更大范围推广应用,将是衡量项目成效的重要标尺。

高质量的行业语料库是释放数据价值的关键基础;山东此次启动的揭榜挂帅工程,不仅是技术攻关,更是一次关于数据治理、标准建设和开放共享的系统探索。随着项目推进和成果落地,必将为山东乃至全国制造业智能化转型开辟新路径,推动产业升级、培育新质生产力上发挥重要作用。