v-drop的新法子,让视觉语言模型的推理加速开了条新路子

对那些想看高分辨率图片或者处理长视频的朋友来说,现在的大型视觉语言模型(LVLMs)可真是伤透了脑筋,Token数量疯狂上涨,导致计算特别慢。不过这次四川大学有个好消息要跟大家说。他们搞出了一种叫V²Drop的新法子,硬是把效率给提了1.87倍。 以前大家剪Token,大多都盯着注意力权重看,想看看谁重要谁不重要。但这个路子有个毛病,就是特别偏爱后面的Token,前面的重要信息经常被忽略。而且光算这个注意力,和现在那些快的计算方法根本不对付。好在V²Drop走了一条新路,它用L2Norm变化量来评估Token的价值。研究发现,一个Token在LLM各层里的变化情况,跟它对任务的重要程度非常合拍。 具体怎么做呢?它会先把每个视觉Token的变化量算出来,再按照得分高低排个序,只保留那些最重要的。这样一来,既不会漏掉关键信息,计算速度也快了不少。 实验效果特别明显。在做图像理解的时候,只要保留66.7%的Token,整体性能就能冲到97.6%,比其他方法强多了。视频理解方面也不落下风,哪怕只保留25%的Token,表现也有98.6%。生成延迟这块更是大大降低了31.5%,吞吐量也猛增到9.01 items/s。 总之,V²Drop给视觉语言模型的推理加速开了条新路子,证明了这种基于变化量的Token压缩框架很有前途。不仅让模型跑得更快更好用,还给以后的研究带来了新想法。大家不妨多关注一下这个方向。