给在ICLR大会上拿了高分的香港科技大学团队,还有北航和商汤的人一起研究出了QVGen。这个办法专门用来对付视频生成扩散模型的QAT,因为之前要是把模型降到3或4比特,训练就会变得特别不稳定,生成的质量差到不能用。为了解决这个头疼的问题,他们发现视频扩散模型的梯度范数太大,导致优化过程很难收敛。所以就加了个辅助模块Φ,给它来个rank-decay策略,慢慢减少低影响的部分,让训练过程变得平稳。等到推理的时候这个模块就没用了,基本不增加负担。有了这个方法,在3-bit和4-bit的情况下,生成的质量又回来了,尤其是4-bit几乎跟全精度一样。这就给那些想要用低比特数让模型更省电、跑得更快的人带来了希望。而且QVGen不需要额外用很多GPU资源,显存占用也变小了。因为它用的是标准均匀量化思路,跟现有的推理内核很好对接,还能跟别的加速技术一起用。研究表明相比蒸馏式的QAT基线,QVGen的GPU使用时间和显存峰值几乎没变化,但生成效果却好了不少。所以QVGen确实给视频生成扩散模型的低比特量化提供了一个实用的解决方案,让大模型也能在小设备上运行得更好。