v-drop的新法子，让视觉语言模型的推理加速开了条新路子

对那些想看高分辨率图片或者处理长视频的朋友来说，现在的大型视觉语言模型（LVLMs）可真是伤透了脑筋，Token数量疯狂上涨，导致计算特别慢。不过这次四川大学有个好消息要跟大家说。他们搞出了一种叫V²Drop的新法子，硬是把效率给提了1.87倍。以前大家剪Token，大多都盯着注意力权重看，想看看谁重要谁不重要。但这个路子有个毛病，就是特别偏爱后面的Token，前面的重要信息经常被忽略。而且光算这个注意力，和现在那些快的计算方法根本不对付。好在V²Drop走了一条新路，它用L2Norm变化量来评估Token的价值。研究发现，一个Token在LLM各层里的变化情况，跟它对任务的重要程度非常合拍。具体怎么做呢？它会先把每个视觉Token的变化量算出来，再按照得分高低排个序，只保留那些最重要的。这样一来，既不会漏掉关键信息，计算速度也快了不少。实验效果特别明显。在做图像理解的时候，只要保留66.7%的Token，整体性能就能冲到97.6%，比其他方法强多了。视频理解方面也不落下风，哪怕只保留25%的Token，表现也有98.6%。生成延迟这块更是大大降低了31.5%，吞吐量也猛增到9.01 items/s。总之，V²Drop给视觉语言模型的推理加速开了条新路子，证明了这种基于变化量的Token压缩框架很有前途。不仅让模型跑得更快更好用，还给以后的研究带来了新想法。大家不妨多关注一下这个方向。