一、开放测试成为发展新方向 长期以来,谷歌Imagen与OpenAI的DALL-E 2、Stability AI的Stable Diffusion并列为文本生成图像领域的三大主流产品,但Imagen一直未向公众开放使用。近期此局面出现变化:谷歌已将Imagen集成至AI Test Kitchen应用,用户可iOS和Android平台下载体验。 这一动作意味着谷歌正从以内部研发为主,转向引入更大范围的开放测试。对应的负责人表示,开放测试的重点不在于“展示能力”,而在于通过真实用户的使用场景获取更全面的反馈,及时发现系统在实际应用中的问题与短板,为后续迭代提供依据。 二、多模态内容生成能力不断拓展 除Imagen外,谷歌也在多个内容创作方向推进产品更新。LaMDA Wordcraft将人工智能引入写作流程,可在创作者遇到灵感瓶颈时提供新的思路,也能对现有文本进行重组,增强节奏与表达效果。该工具已在文学创作中得到应用,其润色与创意建议能力获得部分专业作者认可。 在视频生成上,谷歌推出的新模型整合了Imagen Video与Phenaki的优势,可一次生成数分钟的连贯视频片段,减少分段生成与后期拼接需求,从而提升内容的连贯性与完整度。此外,AudioLM音频生成系统也取得进展:用户提供音频样本后,系统可自动续写旋律,为音乐创作者减少部分编曲工作量。 三、推理能力成为研究重点 谷歌大脑研究团队持续加大对人工智能逻辑推理能力的投入。今年年初,团队提出“思维链提示”方法,核心思路是让大规模语言模型在输出最终答案前,先呈现完整的中间推理步骤。该方法促使模型对问题进行拆解并逐步推导,而不是直接给出结论。 实验结果显示,引入思维链提示后,模型在算术运算、常识推理和符号逻辑三项基准测试中的准确率均提升10%以上。且模型规模越大,提升越明显。谷歌PaLM-540B在采用思维链提示后,性能甚至超过了经过验证集微调的GPT-3模型。 在此基础上,团队继续提出“自洽性”策略:同时采样多条推理路径,并通过多数投票选出内部一致性更强的答案,从而进一步提高准确率。最新研究还显示,面对由易到难的泛化问题,团队采用将复杂问题拆分为子问题序列的方式,让模型按“子问题A—子问题B”的链条逐步求解,使解决过程更接近人类的递进式思考。 四、技术进步的现实意义 上述进展反映了人工智能在两个方向上的推进:其一,多模态内容生成能力扩展,使AI在创意产业中的落地空间进一步打开,从图像、文本到音视频,覆盖内容生产的核心环节;其二,推理能力提升让AI不仅能“生成”,也更能“分析”和“求解”,对科学研究、工程设计等专业场景具有更直接的价值。
从开放测试入口到推理方法升级,这些动作传递出一个明确信号:新一代生成式能力正加速走出实验室,但关键不在于“能否生成”,而在于能否稳定、可靠地满足真实需求;技术进步的价值不仅取决于创新速度,也取决于治理能力与社会共识的建立。只有在可控、可用、可追溯的框架下持续迭代,生成式工具才能在提升生产力的同时,减少新的风险。