如何对付视频生成扩散模型的qat

给在ICLR大会上拿了高分的香港科技大学团队，还有北航和商汤的人一起研究出了QVGen。这个办法专门用来对付视频生成扩散模型的QAT，因为之前要是把模型降到3或4比特，训练就会变得特别不稳定，生成的质量差到不能用。为了解决这个头疼的问题，他们发现视频扩散模型的梯度范数太大，导致优化过程很难收敛。所以就加了个辅助模块Φ，给它来个rank-decay策略，慢慢减少低影响的部分，让训练过程变得平稳。等到推理的时候这个模块就没用了，基本不增加负担。有了这个方法，在3-bit和4-bit的情况下，生成的质量又回来了，尤其是4-bit几乎跟全精度一样。这就给那些想要用低比特数让模型更省电、跑得更快的人带来了希望。而且QVGen不需要额外用很多GPU资源，显存占用也变小了。因为它用的是标准均匀量化思路，跟现有的推理内核很好对接，还能跟别的加速技术一起用。研究表明相比蒸馏式的QAT基线，QVGen的GPU使用时间和显存峰值几乎没变化，但生成效果却好了不少。所以QVGen确实给视频生成扩散模型的低比特量化提供了一个实用的解决方案，让大模型也能在小设备上运行得更好。