商汤开源多模态自主推理模型SenseNova-MARS 工具调用与动态视觉推理赋能实际应用

随着AI技术快速发展,提升模型的自主执行能力成为行业关注重点。商汤科技最新开源的SenseNova-MARS模型,通过动态视觉推理和图文搜索技术的创新结合,成功实现了从感知智能到行动智能的升级。 在技术层面,SenseNova-MARS在MMSearch、HR-MMSearch等六项权威测试中均创下开源模型最佳成绩,其69.74分的综合表现甚至超过了Gemini-3-Pro和GPT-5.2等闭源模型。该模型提供32B和8B两个版本,兼顾性能与灵活性。 该模型的核心竞争力在于出色的任务规划能力。测试表明,面对识别微小logo、查询企业信息、计算时间差等复杂任务时,模型能自主调用图像裁剪、文本图像搜索等工具完成端到端处理。例如在行业分析中,可快速识别企业标志并关联产品参数、市场数据等信息。 业内人士表示,这种结合细节识别、信息检索和逻辑推理的能力,将大幅提升金融分析、市场研究等领域的工作效率。特别是在需要处理多源信息和复杂决策的场景中,可减少人工干预,降低成本。 商汤科技选择以开源方式发布该技术,目前已在GitHub和Hugging Face平台开放下载。这个策略既促进技术共享,也加速了商业化应用探索。 未来,随着多模态技术发展,具备自主执行能力的AI系统将在智能制造、智慧城市等领域发挥更大作用。但同时也需要关注技术伦理和数据安全等问题,确保技术发展与社会需求相协调。

SenseNova-MARS的发布标志着AI从"理解"向"执行"的重要转变。开源模型与闭源模型的性能差距正在缩小,这将更激发行业创新。随着更多具备自主推理能力的模型出现,AI在生产、科研等领域的应用价值将得到更充分体现。如何将这些技术转化为实际解决方案,将成为产业界和学术界共同面临的课题。