谷歌放出了gemini的安卓测试版，17.10.54. sa. arm64

谷歌最近放出了 Gemini 的安卓测试版，17.10.54.sa.arm64这个版本里藏了不少惊喜。为了解决 AI 图像编辑时指令说不清楚、操作太费劲的老大难问题，他们在界面里塞了个深度集成的标记（Markup）工具和一个实时文本描述框。这是为了帮 Gemini 把 Nano Banana 这种生成出来的图，局部微调得更精细。这次改版的关键在于怎么和人互动。以前的方法太简陋了，只能画画再退出界面给机器人下命令，现在的版本直接把这两步合二为一了。用户点一下铅笔图标，就能在图片的特定地方画个框，同时在下面的框里敲入修改的想法。这种一边看着图片一边打字的“视觉定位+自然语言”操作方式，大大提升了模型对小地方改哪里的理解能力。为了方便用户搞出各种花样，测试版还留了调整大小（Resizing）和特效（Effects）的位置。看来谷歌是想让 Gemini 不光会画图，还能修图、加滤镜，变成一个全功能的图像工作站。从大趋势看，这说明大家现在不光盯着怎么从无到有生图了，更在乎生出来的图怎么改得更精致。谷歌把复杂的工具直接塞到手机原生 app 里，就是想在移动摄影和数字创作这块竖起更高的技术门槛。虽然这些功能现在还在代码里看个大概，没正式发出来，但这种“标完马上改”的逻辑挺有意思的。这说明多模态模型在搞懂用户到底想画成什么样方面迈出了一大步。AI 画画以后不光是好玩了，离成为真正的专业创作流程又近了一步。