商汤开源多模态自主推理模型SenseNova-MARS 工具调用与动态视觉推理赋能实际应用

随着AI技术快速发展，提升模型的自主执行能力成为行业关注重点。商汤科技最新开源的SenseNova-MARS模型，通过动态视觉推理和图文搜索技术的创新结合，成功实现了从感知智能到行动智能的升级。在技术层面，SenseNova-MARS在MMSearch、HR-MMSearch等六项权威测试中均创下开源模型最佳成绩，其69.74分的综合表现甚至超过了Gemini-3-Pro和GPT-5.2等闭源模型。该模型提供32B和8B两个版本，兼顾性能与灵活性。该模型的核心竞争力在于出色的任务规划能力。测试表明，面对识别微小logo、查询企业信息、计算时间差等复杂任务时，模型能自主调用图像裁剪、文本图像搜索等工具完成端到端处理。例如在行业分析中，可快速识别企业标志并关联产品参数、市场数据等信息。业内人士表示，这种结合细节识别、信息检索和逻辑推理的能力，将大幅提升金融分析、市场研究等领域的工作效率。特别是在需要处理多源信息和复杂决策的场景中，可减少人工干预，降低成本。商汤科技选择以开源方式发布该技术，目前已在GitHub和Hugging Face平台开放下载。这个策略既促进技术共享，也加速了商业化应用探索。未来，随着多模态技术发展，具备自主执行能力的AI系统将在智能制造、智慧城市等领域发挥更大作用。但同时也需要关注技术伦理和数据安全等问题，确保技术发展与社会需求相协调。

SenseNova-MARS的发布标志着AI从"理解"向"执行"的重要转变。开源模型与闭源模型的性能差距正在缩小，这将更激发行业创新。随着更多具备自主推理能力的模型出现，AI在生产、科研等领域的应用价值将得到更充分体现。如何将这些技术转化为实际解决方案，将成为产业界和学术界共同面临的课题。