大模型量化训练极限在哪?腾讯混元提出低比特浮点数训练Scaling Laws

AI快讯 1个月前 atcat
0 0

这项研究为大模型训练中的浮点数量化提供了重要的理论指导。

大模型量化训练极限在哪?腾讯混元提出低比特浮点数训练Scaling Laws

原标题:大模型量化训练极限在哪?腾讯混元提出低比特浮点数训练Scaling Laws
文章来源:机器之心
内容字数:6315字

腾讯混元团队揭示大模型浮点量化训练Scaling Laws

本文总结了腾讯混元团队发表的论文《Scaling Laws for Floating–Point Quantization Training》的主要内容,该论文深入研究了大模型浮点量化训练的规律,并提出了相应的Scaling Laws,为大模型低精度训练提供了重要的理论指导。

1. 研究背景与意义

大模型训练和推理成本高昂,低比特量化技术成为降低成本的关键方法。现有研究多关注整数量化,而实际应用中浮点量化因其精度损失更小而更常用。因此,腾讯混元团队对浮点量化训练进行了系统研究,以期建立指导大模型浮点量化训练的Scaling Laws。

2. 浮点量化训练的Scaling Laws

该团队进行了366组不同参数规模和精度的浮点量化训练实验,最终得出了一个统一的Scaling Law公式,该公式综合考虑了模型大小(N)、训练数据量(D)、指数位(E)、尾数位(M)以及量化时放缩因子共享粒度(B)等因素对模型训练损失的影响:

该公式中,前三项基于经典的Chinchilla Scaling Law,第四项表示浮点量化带来的额外损失。研究发现,E、M和B的联合项可以看作某种形式的精度表示,大模型在过低精度下无法承载过高的知识密度,导致额外损失。

3. 关键结论与发现

基于该Scaling Laws,研究团队得出以下重要结论:

  1. 模型极限效果与最佳数据量: 任意低精度大模型浮点量化训练都存在一个模型极限效果及对应的最佳数据量。超过此最佳数据量继续增加数据反而会降低模型效果。
  2. 最佳性价比精度: 在限定计算资源下,理论预测的最佳性价比的浮点数量化训练精度落在4-8比特之间。
  3. 指数位与尾数位的最佳配比: 研究推导出了指数位和尾数位对模型效果的定量关系,并给出了最佳配比规律。
  4. 放缩因子共享粒度影响: 验证损失与放缩因子共享粒度B的对数成正比例关系。
  5. 精度与参数量的“汇率”关系: 在资源受限的情况下,精度P和参数量N之间存在一个类似“汇率”的关系,指导资源配置。
  6. 无法跨越的效果屏障: 每个精度都存在一个对应的极限效果,无论使用多少数据都无法超越。超过此极限数据量,继续增加数据反而有害。

4. 研究价值与意义

这项研究为大模型训练中的浮点数量化提供了重要的理论指导。它不仅明确了在给定资源和精度下的最优参数配置策略,帮助提高训练效率和降低成本,而且对于推动大模型在实际应用中的更广泛部署具有关键意义。同时,该研究也为硬件制造商优化浮点运算能力提供了依据,为研究人员在大模型优化和创新方面开辟了新的思路和方向。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

暂无评论

暂无评论...