ai加了个即插即用的模块，能直接用在现有流程里

FOCUS这个算法把长视频理解的性能给提升了11.9%，这在现在MLLM发展这么快的情况下，可是个大进步。新加坡国立大学的研究团队提出了一个新方案，它只用抽取不到2%的关键帧，就能让性能大涨。传统均匀抽帧虽然省事，但常常漏掉重要的东西，模型只能乱答；那些现有的关键帧选择法要么训练复杂，要么计算量太大，都不实用。FOCUS把问题建模成了组合纯探索（CPE）的多臂赌博机问题，采取了“探索—利用”的策略。它先把长视频切成几段，用自适应抽样快速找到可能有价值的部分；接着在确定的地方再仔细选帧。这种办法不用看全视频，还能在预算内找到最有用的画面。为了证明这个方法管用，研究人员用GPT-4o、Qwen2-VL这些主流模型在四个VideoQA基准上测试了一番。结果显示，处理超过20分钟的长视频时，FOCUS比均匀抽帧方法提升了高达11.9%，而且平均只看了不到2%的帧就够了，大大降低了计算开销。这就像是给AI加了个即插即用的模块，能直接用在现有流程里。这个研究不仅帮了学术界一把，也给实际处理长视频提供了好办法。以后在视频分析、自动摘要生成这些领域里，FOCUS肯定还能发挥更大的作用。