机器真的变得厉害，我们不光得有算法和算力，还得敬畏生命

最近有个研究团队搞了个叫“BabyVision”的评测，专门把现在市面上那些最厉害的多模态模型和小朋友在看图做题上的表现摆在一起比较。这一比比出了不少大问题。测试里面一共包含了图像分类、物体运动轨迹追踪、空间结构判断这20项核心任务。为了保证公平，所有的题目都不让用文字提示，得纯靠眼睛看图来回答。结果发现，绝大部分的顶尖模型得分都比3岁孩子组的平均分低很多。只有一个模型勉强超过了3岁的基准线，但跟6岁孩子组比起来，还是差了将近20个百分点。比如在垃圾分类连线那个题里，3岁小孩眼睛一瞟就知道怎么连对，但是表现最好的模型虽然能写一长段推理过程，最后答案还是错的。研究团队分析说，现在的多模态模型基本都是先把看到的东西变成文字再去琢磨，说白了还是在用语言符号做运算，根本不是真的看明白了。这种设计让模型在一些看不到的细节、东西动来动去的轨迹追踪、还有脑子里面想象三维空间的时候出现了很多大漏洞。论文里还指出，模型在精细分辨、跟踪动态、空间感知和模式识别这四个方面都不行，说明它的视觉模块没搭好跟人类大脑一样的底层结构。这个视觉能力上的短板会直接拖累智能系统去做医疗影像分析、工业质检或者开自动驾驶车这些事。评测里有388道题全做下来，成年对照组的正确率能到94.1%，但是最优的那个模型连50%都不到，大部分开源模型更是只有25%左右。这说明要是不把真正看懂的问题解决掉，光靠堆数据或者堆参数是没办法让技术有本质上的飞跃的，反而可能因为老想着靠语言来帮忙而离实际应用越来越远。专家建议要解决这个问题得从三个方面一起使劲：第一是让搞认知科学的人和做计算模型的人多交流交流，看看孩子怎么学会看东西的规律，照着这个规律设计神经网络；第二是制定更精细的评测标准，别光盯着那些表面的任务做判断，还要多看看能不能凭直觉和追踪动态这种隐含的能力；第三是鼓励大家一起搞创新，搞出专门用来处理连续视觉信号的芯片和算法，少用点文字当中间媒介。虽然现在的模型看着还挺稚嫩，但这次评测也给咱们指了条明路。只要神经科学、发展心理学和计算机科学能深度融合一下，未来肯定会出现那种像人一样有“视觉直觉”的新系统。短期来看，科研单位和企业可以从宝宝怎么学东西中找灵感；长期来看，视觉理解能力强不强就是衡量人工智能能不能走向通用智能的一个关键指标了。就像从看到一只猫到看懂场景里的变化原因一样，视觉智能的潜力比咱们现在的技术水平大多了。这次评测就像一面镜子一样照出了机器的弱点，也照出了人类大脑的精妙之处。想要让机器真的变得厉害，我们不光得有算法和算力，还得敬畏生命是怎么去理解世界的这个根本问题。只有机器学会了真正的“看见”，而不是光会“解读”，人工智能才能真正帮人类拓宽认知的边界。