南开大学联合研发视频理解新模型 推进人工智能向深层次认知迈进

(问题)随着短视频、影视内容和行业监控等应用的快速发展,智能系统如何更精准、全面、稳定地理解视频内容,成为多模态领域的关键挑战。现实场景中的视频通常包含画面、声音和时间序列信息,涉及人物表情、物体交互、环境变化和语言对话等多种要素。传统方法在训练和评测时——虽然能捕捉局部特征——但难以整体把握事件过程、因果关系和语境要点,导致在复杂场景下泛化能力不足、细节理解不稳定。 (原因)研究团队指出,视频理解能力受限的一个重要原因是训练数据不够精细。现有数据集多以粗粒度描述为主,标注信息覆盖不均,缺乏对关键要素、步骤关系和多源信息对应关系的明确表达。由于视频本身具有多线索并行、信息密度高、跨模态对齐困难等特点,如果训练数据仅提供笼统结论,模型容易陷入“机械记忆”的学习模式,面对新场景时出现理解偏差。此外,数据来源复杂也容易引入噪声和遗漏,更影响训练质量和模型的可解释性。 (影响)视频理解能力的提升直接影响多类应用的可靠性和安全性。在公共服务和内容治理中,细粒度识别有助于更准确地分析事件经过和风险点;在智能终端和交互场景中,稳定的视听融合理解能优化检索、摘要和问答体验;在科研领域,高质量、标准化的数据和训练方法将推动多模态推理、时序建模和跨模态对齐等基础能力的进步。业内普遍认为,数据与方法的“双轮驱动”是提升视频理解水平的主要路径。 (对策)针对这些问题,研究团队提出新的数据处理流程,并构建了ASID-1M数据集。该数据集包含100万条视频描述,采用统一标准对信息进行结构化拆解,涵盖场景设置、角色信息、物品清单、动作过程、情感表达、叙事结构、对话内容和拍摄视角等八类要素,力求清晰完整地描述“发生了什么、谁在做什么、在什么环境下、以何种方式呈现”。同时,团队设计了质量控制机制,通过“多源采集—信息整合—逐条核验”流程减少错误和缺失,提升标注的一致性和可用性。 在训练方法上,团队提出分阶段学习策略:第一阶段专注于单一属性的基础学习,让模型掌握场景、动作、情绪等要素的识别与表征;第二阶段强化属性间的组合与关联建模,帮助模型理解多要素如何在时间维度上构成完整事件;第三阶段针对下游任务进行适配与优化,使模型能将细粒度知识迁移到检索、描述生成和理解类任务中。对应的成果已于2026年2月16日以预印本形式发布(arXiv:2602.13013v1)。 (前景)多模态技术竞争正从“能看见”向“看得懂、说得清、推得准”迈进。专家认为,细粒度理解的数据集和训练范式有望提升模型对长时序事件、跨模态线索和语境依赖信息的处理能力,为内容生产、教育学习、工业巡检和公共安全等领域提供更可靠的技术支持。未来,如何在开放环境中降低噪声、增强时序推理能力,并完善评测体系和应用验证,将成为研究和产业共同关注的重点。

此突破不仅标志着我国在计算机视觉领域取得重要进展,也揭示了人工智能发展的新方向——通过构建更接近人类认知方式的学习体系,让机器真正理解动态世界的丰富语义。随着多模态融合技术的深入发展,其带来的产业变革或将重塑数字内容生产、智能交互体验等多个领域的格局。