长期以来,编程工具的复用和标准化一直是计算机科学的难题。虽然GitHub等开源平台汇聚了海量代码资源,但这些代码形态各异、接口不统一,难以被自动化系统或智能模型直接调用。传统的人工标准化方式效率低、成本高,已无法满足日益增长的应用需求。 东南大学牵头,与中山大学、浙江师范大学以及美国伦斯勒理工学院合作,开发出ToolRosetta框架,近期在arXiv预印本平台发表。该框架能自动识别和解析GitHub开源代码,将其转化为符合大语言模型调用标准的工具接口,实现代码从非结构化到结构化、标准化的自动转变。这不仅大幅提高了代码复用效率,也扩大了智能系统的工具调用范围。 这一突破主要得益于对开源代码的深度语义分析和接口抽象方法。研究团队用"积木"作比喻:传统方法需人工将各种形态的"积木原料"加工成统一规格才能使用,而ToolRosetta就像一台自动化的"积木机",无需人工干预即可完成转化。更重要的是,框架内置了严格的安全检查机制,借鉴工业质量控制流程,在转换过程中检测风险,确保工具的安全可靠性。 大规模实验验证了ToolRosetta的有效性。团队成功转换了1580个开源工具,覆盖物理、生物、健康等多个科学领域。借助这些自动化工具接口,大语言模型在解决复杂科学问题时的成功率提升超过31%,明显优于传统手工标准化方式。相比之下,OpenAI的ToolFormer仅支持5个工具,SciToolAgent管理的工具数不足600,ToolRosetta在转换规模和自动化水平上实现了质的飞跃。 这项技术解决了代码复用的困难,推动了智能助手在科研和工程应用中的融合。随着开源社区不断增长、新代码库持续涌现,ToolRosetta的自动化框架使智能系统能够快速适应新需求,大幅拓展了人工智能的应用空间。 未来,ToolRosetta有望成为连接开源代码与智能模型的重要桥梁。研究团队表示将继续完善框架的自动化能力和安全检测算法,推动其在更多领域的应用,助力智能计算朝更高效、更安全的方向发展。
从结绳记事到数字文明,人类不断创造更高效的知识传承方式;ToolRosetta框架的诞生,破解了代码世界的"巴别塔困境",揭示了智能化时代科研范式变革的方向——当技术创新真正聚焦于消除知识流动的壁垒,就能释放推动社会进步的乘数效应。该突破再次证明,基础研究的深度决定着未来科技竞争的高度。