中国研发出30亿个文档解析模型,全球第一

我国科研团队这次在文档智能解析关键技术上取得了重大突破,自研模型的性能竟然已经跑到全球第一。人工智能现在深度融入各行各业,怎么让机器像人一样精准看懂各种复杂的文档,成了提升AI应用效果的大难题。最近有个好消息:在WPS 365上海AI协同办公峰会上,华中科技大学刘禹良教授带着他的团队展示了和金山办公一起搞出来的重大成果——Monkey系列文档解析模型。 你看,这个模型只用了30亿个参数,就在中英文文档处理上干得最漂亮;它的升级版MonkeyOCR v1.5更是厉害,在国际权威评测里把GPT-4o和Gemini-2.5 Pro这些大块头都打败了,排在第一位。这事儿可不是运气好,文档解析和理解既是科技巨头抢着要的核心赛道,也是国家政策重点关注的基础技术。 企业里的文档通常特别复杂,专业术语一堆,还有多国语言混在一起,传统模型根本搞不定。刘禹良教授说,要让AI像人一样理解真实世界,高质量的非结构化数据治理是关键。面对挑战,研究团队没走单纯堆参数的老路。实验发现,在有些任务上盲目扩大参数反而会让模型变慢。国际上的那些大模型虽然泛化能力强,但没专门为处理文字设计过。 最新的数据显示,现有的主流模型在复杂光学字符识别任务上的准确率只有60%左右。Monkey系列模型之所以厉害,是因为它搞出了新的技术思路和产学研合作。团队首创了“结构优先”的方法,把传统的模块拼接流程改成统一框架下的结构化处理。通过图像金字塔切分、循环漂移切分这些独门绝技,它处理复杂排版、表格、图表混合的文档特别在行。 金山办公作为合作方,凭借在文档领域干了38年的经验,给模型提供了场景理解和工程化的支持。在研发MonkeyOCR v1.5的时候,团队用了视觉一致性强化学习技术专门优化表格理解。这下好了,这个模型在复杂表格解析上的精度突破了90%,还能还原表格里的图片、合并跨页的表格。 这种产学研深度融合的模式效果特别好。之前华中科技大学的团队用这项技术帮忙研究甲骨文,成果拿到了国际计算语言学顶级会议ACL 2024的最佳论文奖,填补了国内的空白。这说明基础研究和应用研究确实能互相促进。 往后怎么打算?双方打算继续努力,建一个史上最大的多语言文档数据集,再搞一个新的OCR视觉基座模型。这个模型设计时还考虑了在CPU环境下也能高效运行的问题,这样就能降低技术门槛了。金山办公也推出了WPS 365平台,想帮企业把零散的知识资产变成驱动业务创新的力量。 Monkey模型在全球跑第一,是我国科研力量和产业结合、坚持自主创新的又一个成功例子。它告诉我们,只要面向国家需求和经济发展主战场去啃“硬骨头”,就能实现从追赶变成领跑的跨越。 现在AI正在向各个行业渗透,高效处理非结构化数据变得特别重要。这次突破不光给智能办公产业加了油,还能为金融、法律、科研这些领域提供国产的解决方案。看来咱们国家在人工智能应用层的创新潜力确实挺大的!