新民晚报记者刚了解到,商汤科技拿出了空间智能模型日日新SenseNova-SI-1.3,这东西不光在测量空间、转视角、推理综合这些方面有大进步,回答问题也变得更溜了。这回它们是把SenseNova-SI-1.3放上去跟好几项权威榜单的集成平台EASI比,结果硬是把Gemini-3-Pro给比下去了。均分直接拿下了EASI-8,也就是八个榜单混着评出来的最高分。 那些专门为难人的高难度题,也没能把这个模型给考倒。比如一道要求数两张照片里建筑模型总数的题,难点就是怎么弄明白两张图的对应关系,不然容易漏数或者多数。还有一题是给两张书房照片,已知电脑在北边,问学生写字的地方在哪。这种得先把两张图拼起来看的题,Gemini-3-Pro答错了说在西边,SenseNova-SI-1.3就准多了,直接定位到西北角。 还有一道考“参照系理解”的题,题目是要站在那个没戴眼镜的男士视角里看旁边戴眼镜的人在哪边。很多模型容易搞错视角用自己的看,Gemini-3-Pro就选了右边。SenseNova-SI-1.3就对了,它说在左边。 这事儿在2025年的ICML论文里也有说道:视角转换跟传统多模态能力的关系非常弱,这说明原来那条路可能行不通,也解释了为啥大模型做不好空间任务。论文还说有个反尺度效应,模型大了反而不一定强。EASI那边也提到视角转换是最头痛的能力之一。学术界的数据集大多盯着目标和场景识别,模型就是在玩图像匹配游戏,很难懂真正的空间逻辑。 为了补上这个坑,商汤把视角转换当成从二维看三维的桥梁来搞。他们把能力拆分成几个阶段训练,还从各种数据源里挖数据重组利用。“这种跨数据源的重组让数据丰富起来。”更有意思的是团队发现任务之间可能有隐藏联系能一起变强。给视角转换训练的模型也能帮到心智重建和空间推理这些本事。 这次升级背后是商汤想打破技术壁垒让好东西惠及更多人。科研人员能用这个长于空间智能的强基线去设计新算法或者继续训练,推动技术往人类水平靠近。