苹果发布了一个多模态人工智能模型,能把视觉理解和图像生成合二为一

最近啊,苹果公司跟大家分享了一个叫Manzano的项目,这是个多模态人工智能模型,能够把视觉理解和图像生成合二为一。苹果公司可是发布了学术论文,专门跟全世界讲这个东西。Manzano在架构上有不少创新,能把理解图片和画图片这两种关键能力很好地结合起来。苹果公司真的是在人工智能和计算机视觉这一块展现了自己的实力呢。 以前开发既能看懂图片又能画画的AI是个难题,因为这两种任务对AI来说是不同的要求。“看”的时候,AI要连续整体地解析视觉信息,就像人看视频一样;“画”的时候呢,它就得把离散的小特征块拼接起来,像拼图一样。以前的模型很难同时做好这两件事,有时候理解准了生成效果就差,或者生成逼真了理解就偏差。Manzano就把这一问题解决了。 他们给Manzano设计了一套三段式处理架构,引入了一个混合视觉分词器。先通过这个分词器并行处理输入的视觉信息,同步生成适用于理解任务和生成任务的不同表示形式。然后用大型语言模型来预测和把握图像语义内容。最后把这些信息输送到扩散解码器里,就把抽象概念变成具体的像素图像啦。这种分路处理协同输出的设计思想让Manzano能够高效地处理两类任务需求。 根据论文公布的数据,Manzano在处理复杂或者反直觉的文本指令时表现得特别好。比如有人让它画“一只鸟在大象下方飞翔”,这个描述本身就有点逻辑问题呢!但Manzano生成出来的结果和OpenAI的GPT-4o这类模型比起来一点都不差。研究团队也验证了这个模型在不同规模下都能提升性能,扩展性特别强。 虽然Manzano现在还在学术研究阶段,还没直接放到iPhone或者Mac这些消费级产品上用呢。但这次发布明确了苹果公司在AI领域的战略方向和积累啊。把强大的多模态理解和生成能力整合起来是实现更通用更自然人机交互的重要一步。苹果这次发布不仅展示了他们的技术实力也反映了全球科技竞争正加速向底层AI创新聚焦。 总之啊,这个Manzano项目给未来智能设备竞争构筑了独特的技术壁垒呢!期待苹果以后的产品能把这技术用起来!