上海人工智能实验室的OpenDataLab团队联手DeepLink,同十多家国内芯片厂商把昇腾、海光、燧原等一众国产算力的适配工作一一完成。这次动作是为了通过软硬件协同的全栈优化策略,把MinerU项目的生态兼容性和适应力推到一个新高度。如今,无论是那种特别精密的数学公式,还是那种结构非常复杂的表格,MinerU都能把它们准确地还原出来,并且能结构化地提取出来。据介绍,MinerU最厉害的地方在于它能够跨行业通用,而且解析精度极高。在大模型研发方面,它就是个高效的语料生产引擎,能够快速把千万级别的文档转化成AI-Ready数据;给政企办公和科研领域的用户带来的好处是可以提升数字化办公的质量。 这个工具之所以能做到这么好的效果,很大程度上是因为它依托了自研的VLM模型。比如它对PDF还有复杂网页的元素捕捉准确率可以达到99%。太初元碁等国产芯片深度适配MinerU的自研模型以后,就能给更多开发者和企业赋能,让他们在构建大模型语料这块儿做得更快更好。