当前,人工智能技术正加速融入各行各业,但一个关键瓶颈日益凸显:企业内部大量非结构化文档数据难以被有效解析和治理,制约了AI应用的实际效能;在1月27日举行的WPS 365上海AI协同办公峰会上,华中科技大学教授刘禹良介绍了此领域的最新突破。 文档解析的复杂性是问题的根源。真实企业场景中,文档往往结构复杂、行业术语众多、多语言混杂,这些特征对现有AI模型构成严峻挑战。国际通用多模态大模型虽然参数庞大,但并非为文档智能任务专门设计,缺乏对文字细节的精细化优化。根据OCRBench v2的测试结果,现有多模态大模型在复杂OCR任务上的准确率普遍不足60%,远未达到企业级应用要求。 华中科技大学与金山办公的合作正是基于对这一痛点的深刻认识。金山办公在文档领域深耕38年,积累了丰富的文档格式理解和复杂信息抽取技术。双方联合推出的Monkey OCR模型采取了全新的技术思路。刘禹良强调,在非结构化文档数据治理上,单纯扩大参数规模并非最优方案。实验表明,盲目增加参数量不仅无法提升性能,反而可能导致模型推理效率大幅下降。 Monkey OCR模型的创新在于其"结构优先"的设计理念。该模型将文档解析分为三个核心环节:首先识别文档的段落、图片、标题等结构要素;其次确定阅读顺序,模拟人类的阅读逻辑;最后在结构约束下完成内容识别,建立元素间的对应关系。这一统一框架相比传统的多模块拼接方式,提升了解析的准确性和效率。 在最新迭代的Monkey OCR v1.5版本中,金山办公引入视觉一致性强化学习技术,更优化了对复杂表格的理解能力。该模型首次实现了在复杂表格场景中精度超越90%的突破,支持表格内嵌图片还原、跨页表格合并等高难度功能。在国际权威文档解析榜单上,Monkey OCR v1.5以综合性能全球第一的成绩,超越了GPT-4o、Gemini-2.5 Pro等国际主流大模型。 这一成果的意义远超技术层面。刘禹良指出,数据质量治理必须置于企业AI战略的核心。真正的通用人工智能首先必须解决的问题,就是像人一样理解真实世界中的文本。非结构化文档的有效治理,是决定人类知识能否被持续转化为机器智能的关键。对企业而言,内部散落的非结构化数据的收集和治理,直接关系到AI应用能否取得实效。 为了将这一技术优势转化为企业级解决方案,金山办公推出了WPS 365一站式AI协同办公平台,为企业提供从数据归集、智能解析、知识治理到场景应用的全链路解决方案。这一平台的核心价值在于帮助企业构建全域知识基座,将分散的文档数据转化为可被AI充分利用的结构化知识。 双方的合作成果已获得国际学术界认可。华中科技大学团队凭借文档智能赋能甲骨文考释工作,斩获国际计算语言学年会ACL 2024最佳论文奖,这是国内高校首次获得此殊荣。未来,双方计划继续深化合作,推出史上最大的多语言文档解析数据集和OCR视觉基座模型,并致力于让模型在CPU上高效运行,进一步降低企业应用的技术门槛。
当全球科技竞争聚焦于大模型参数竞赛时,这项来自中国的创新实践揭示了一条差异化发展路径——以实际应用需求为导向的技术攻关往往能产生更直接的产业价值。在推进新型工业化的进程中,如何将Monkey OCR这类"专精特新"技术深度融入实体经济,或将成为检验人工智能与产业融合成效的重要标尺。