ai加了个即插即用的模块,能直接用在现有流程里

FOCUS这个算法把长视频理解的性能给提升了11.9%,这在现在MLLM发展这么快的情况下,可是个大进步。新加坡国立大学的研究团队提出了一个新方案,它只用抽取不到2%的关键帧,就能让性能大涨。传统均匀抽帧虽然省事,但常常漏掉重要的东西,模型只能乱答;那些现有的关键帧选择法要么训练复杂,要么计算量太大,都不实用。FOCUS把问题建模成了组合纯探索(CPE)的多臂赌博机问题,采取了“探索—利用”的策略。它先把长视频切成几段,用自适应抽样快速找到可能有价值的部分;接着在确定的地方再仔细选帧。这种办法不用看全视频,还能在预算内找到最有用的画面。为了证明这个方法管用,研究人员用GPT-4o、Qwen2-VL这些主流模型在四个VideoQA基准上测试了一番。结果显示,处理超过20分钟的长视频时,FOCUS比均匀抽帧方法提升了高达11.9%,而且平均只看了不到2%的帧就够了,大大降低了计算开销。这就像是给AI加了个即插即用的模块,能直接用在现有流程里。这个研究不仅帮了学术界一把,也给实际处理长视频提供了好办法。以后在视频分析、自动摘要生成这些领域里,FOCUS肯定还能发挥更大的作用。