Delta-CoMe：新型高效增量压缩算法助力数据存储优化与传输提速

Delta-CoMe是一种创新的增量压缩算法，由清华大学NLP实验室与OpenBMB开源社区、北京大学和上海财经大学联合研发。该算法使得在一台80G的A100 GPU上可以轻松加载多达50个7B模型，显著节省约8倍的显存，同时在压缩后的模型性能几乎与未压缩的微调模型相当。Delta-CoMe结合了低秩分解与低比特量化技术，利用模型参数增量（Delta）的低秩特性，实现了高效的混合精度压缩。

Delta-CoMe是什么

Delta-CoMe是一种前沿的增量压缩算法，旨在优化大型语言模型（LLMs）的存储和推理效率。通过创新的压缩技术，Delta-CoMe在保证模型性能的同时，显著降低了对硬件资源的需求，特别适用于处理复杂任务如数学计算、代码生成和多模态应用。

低秩分解技术：通过奇异值分解（SVD）对模型参数增量（Delta）进行低秩分解，发现大部分变化集中在少数主要成分上。
混合精度量化：依据低秩分解的结果，为不同的奇异向量分配适当的位宽。较大奇异值对应的奇异向量使用更高精度表示，而较小的奇异值则使用较低精度，从而减少存储需求。
长尾分布的有效利用：Delta-CoMe发现Delta参数的奇异值呈现长尾特征，主要集中在较小的数值上。因此，对小奇异值的奇异向量进行更激进的压缩，对大奇异值的奇异向量则保留更高的精度。
兼容性与泛化能力：该方法不仅适用于特定模型或任务，还具有良好的泛化能力，可以与多种主干模型（如Llama-2、Llama-3和Mistral）兼容，并在多种任务上保持优异性能。
硬件优化支持：为进一步提升推理速度，Delta-CoMe实现了针对混合精度量化的Triton kernel算子，确保在硬件上的有效部署。

暂无评论...