谷歌最近放出了 Gemini 的安卓测试版,17.10.54.sa.arm64这个版本里藏了不少惊喜。为了解决 AI 图像编辑时指令说不清楚、操作太费劲的老大难问题,他们在界面里塞了个深度集成的标记(Markup)工具和一个实时文本描述框。这是为了帮 Gemini 把 Nano Banana 这种生成出来的图,局部微调得更精细。 这次改版的关键在于怎么和人互动。以前的方法太简陋了,只能画画再退出界面给机器人下命令,现在的版本直接把这两步合二为一了。用户点一下铅笔图标,就能在图片的特定地方画个框,同时在下面的框里敲入修改的想法。这种一边看着图片一边打字的“视觉定位+自然语言”操作方式,大大提升了模型对小地方改哪里的理解能力。 为了方便用户搞出各种花样,测试版还留了调整大小(Resizing)和特效(Effects)的位置。看来谷歌是想让 Gemini 不光会画图,还能修图、加滤镜,变成一个全功能的图像工作站。从大趋势看,这说明大家现在不光盯着怎么从无到有生图了,更在乎生出来的图怎么改得更精致。谷歌把复杂的工具直接塞到手机原生 app 里,就是想在移动摄影和数字创作这块竖起更高的技术门槛。 虽然这些功能现在还在代码里看个大概,没正式发出来,但这种“标完马上改”的逻辑挺有意思的。这说明多模态模型在搞懂用户到底想画成什么样方面迈出了一大步。AI 画画以后不光是好玩了,离成为真正的专业创作流程又近了一步。