谷歌deepmind 团队放出了个新招,他们在gemini 3 flash 这个轻量级大模型里塞进了一个叫“智能体视觉

谷歌DeepMind团队最近放出了个新招,他们在Gemini 3 Flash这个轻量级大模型里塞进了一个叫“智能体视觉”的功能,把AI搞图像识别这事儿彻底变了个样。以前的AI就像个瞎眼的傻子,拿到图只能看一眼就下结论,要是第一次没看准漏掉了什么细枝末节,后面就全得靠蒙。这就好比医生看病,只扫一眼不做检查就直接开药,肯定容易出错。DeepMind这次给AI安上了个能“动手”的脑子,让它不再傻乎乎地被动看,而是像人一样先想个计划,再动手操作去获取新证据。这就好比你遇到不懂的问题会去查资料或者实地考察一样。具体到操作上,“智能体视觉”会先分析问题,然后计划怎么做,最后通过运行Python代码去实现,比如裁剪区域、旋转图像或者测量数据。这套流程下来,它就能像模像样地进行“思考-行动-观察”的循环。以前那些靠猜的概率性结果,现在能通过Matplotlib这类绘图库精确重建验证。谷歌测试发现,这种方式能让模型在各种测试中把成绩往上提个5%到10%。 咱们拿PlanCheckSolver.com这个建筑图纸检查平台来举个栗子。以前的模型看图纸时因为看不清边缘或者标签容易出错,现在它能自己动手写代码把屋顶区域切出来仔细分析,一下子就把准确率从5%往上抬了5个百分点。尤其在处理那种需要多步运算的视觉数学题时,这种方法优势更大。模型不再依赖模糊的推测,而是通过调用代码直接抓取图表上的原始数据点进行计算。这样既能保证结果准确又能看出计算过程是怎么来的,大大减少了那种莫名其妙的“幻觉”错误。 DeepMind这次的动作不光是在Gemini上加个功能那么简单,它标志着AI图像处理开始从单纯的“看”转向了“察”,也就是真正去理解和验证。虽然现在还得手动去点一下才能激活这个模式,但团队已经说了以后肯定要往全自动去发展。这对智能制造、自动驾驶、医疗影像分析还有科学发现这些行业来说都是个好消息,毕竟谁都不想用个会瞎猜的机器干活吧。技术还在加速跑,未来的AI到底能有多聪明、能走多远,这就是咱们接下来最想知道的了。