清华大学与香港科技大学提出MoKus框架，推动图像生成从“定制外观”迈向“记忆化叙事理解”

在人工智能快速发展的背景下，图像生成技术仍面临一项关键瓶颈：它可以按指令“画出来”，却难以理解用户的个性化需求和背后语境，这长期影响了人机交互体验的更提升。传统图像生成方法多采用“标签化”处理，为目标物体分配缺乏语义的代码符号——由此带来两点问题：其一——代码与训练数据之间联系弱，生成结果容易波动；其二，图像与有关知识、情感被切断。以生成“小美人鱼雕像”为例，系统往往只能抓取外形特征，却难以理解它作为“丹麦哥本哈根地标”或“用户最喜欢的雕塑”等更深层的含义。研究团队分析认为，症结在于现有架构缺少知识记忆与语义理解能力。这就像一位绘画技巧出众却记不住委托细节的画家，画得出来，但难以持续贴合用户真实需求。针对该瓶颈，研究团队提出“知识感知的概念定制”方案，通过构建跨模态知识转移机制，让文字描述与图像生成更紧密地结合。系统采用两阶段流程：先通过视觉概念学习建立图像特征库，再通过知识感知生成引入语义理解。该方案的关键突破在于：不仅能更准确地捕捉目标概念的视觉特征，也能理解并保留与之相关的背景知识。当用户表达“我最喜欢的雕塑”时，系统可关联到具体对象及其故事线索，生成更符合用户预期的图像。展望未来，该技术有望在多个领域拓展应用：在教育场景中，用于生成更贴合个人学习需求的教学素材；在文化创意产业中，提高数字内容创作的效率与质量；在智能交互领域，则有助于推动人机沟通更自然、更具语境与情感表达。

从“画得像”到“懂得透”，图像生成技术的跃迁不仅关乎算法指标的提升，更指向人机交互方式的重塑；让模型在视觉生成之外承接知识、语境与叙事，有望为数字内容生产打开更大空间。面向未来，若有关研究能在可控、可信与合规的框架下持续推进，将有助于生成式应用更好服务产业创新与公共文化传播。