清华大学与香港科技大学提出MoKus框架,推动图像生成从“定制外观”迈向“记忆化叙事理解”

在人工智能快速发展的背景下,图像生成技术仍面临一项关键瓶颈:它可以按指令“画出来”,却难以理解用户的个性化需求和背后语境,这长期影响了人机交互体验的更提升。传统图像生成方法多采用“标签化”处理,为目标物体分配缺乏语义的代码符号——由此带来两点问题:其一——代码与训练数据之间联系弱,生成结果容易波动;其二,图像与有关知识、情感被切断。以生成“小美人鱼雕像”为例,系统往往只能抓取外形特征,却难以理解它作为“丹麦哥本哈根地标”或“用户最喜欢的雕塑”等更深层的含义。研究团队分析认为,症结在于现有架构缺少知识记忆与语义理解能力。这就像一位绘画技巧出众却记不住委托细节的画家,画得出来,但难以持续贴合用户真实需求。针对该瓶颈,研究团队提出“知识感知的概念定制”方案,通过构建跨模态知识转移机制,让文字描述与图像生成更紧密地结合。系统采用两阶段流程:先通过视觉概念学习建立图像特征库,再通过知识感知生成引入语义理解。该方案的关键突破在于:不仅能更准确地捕捉目标概念的视觉特征,也能理解并保留与之相关的背景知识。当用户表达“我最喜欢的雕塑”时,系统可关联到具体对象及其故事线索,生成更符合用户预期的图像。展望未来,该技术有望在多个领域拓展应用:在教育场景中,用于生成更贴合个人学习需求的教学素材;在文化创意产业中,提高数字内容创作的效率与质量;在智能交互领域,则有助于推动人机沟通更自然、更具语境与情感表达。

从“画得像”到“懂得透”,图像生成技术的跃迁不仅关乎算法指标的提升,更指向人机交互方式的重塑;让模型在视觉生成之外承接知识、语境与叙事,有望为数字内容生产打开更大空间。面向未来,若有关研究能在可控、可信与合规的框架下持续推进,将有助于生成式应用更好服务产业创新与公共文化传播。