DeepSeek V3训练推理优化分析。
大模型训练与推理加速策略深度解析
本文解读知乎文章,分析一种新型大模型的训练和推理加速策略,并对其实现方法和潜在瓶颈进行探讨。
1. 训练成本与加速策略
该模型在14.8T tokens的训练中,仅花费不到600万美元,约为Llama 3.1 (15T+ tokens) 成本的十分之一。作者认为,简单地追求十倍加速是不现实的,需要深入理解模型训练的计算瓶颈(MFU)。作者高度评价了该软件公司在CUDA软件和硬件方面的深厚功底,认为其在大模型基础设施领域属于国内外顶尖水平。由于论文未披露训练MFU,难以精确评估优化效果。作者通过计算举例说明了如何根据已知数据估算MFU,并指出结果与预期存在偏差,需要读者自行验证。
2. MoE架构的挑战与优化
作者指出MoE架构相比于稠密模型,引入了All-to-All通信成本和专家均衡两个新的挑战。理解这两个问题是理解MoE实现的关键。 文章对训练加速点进行了推测,乐观估计FP8加速可提升训练速度接近一倍,32k序列长度可提升80%,但128k序列长度下attention计算占比会超过gemm,可能达到40%-50%。
3. 硬件与软件协同优化
文章分析了FP8混合精度带来的加速和显存节省,并探讨了在H800上,由于量化、精度等因素,FP8加速并非简单的两倍。作者还提到了TP/PP/EP的调整,以及针对TP=1时容易出现的显存溢出(OOM)问题,并分析了其原因。Dual-pipe调度策略可以减少约50%的bubble,但其效果依赖于单DP的batch size。All-to-All通信的overlap优化效果取决于序列长度,在128k序列长度下,其优化效果可能在10%-20%之间。文章还分析了跨节点通信优化策略,指出实际带宽与理论带宽存在差距,并强调了可观测性的重要性。Warp spec技术通过划分SM资源来平衡计算和通信,但同时也减少了部分可用计算单元。
4. MoE Token Dispatch 均衡
文章简要提及了通过调整dispatch辅助loss来实现MoE token dispatch均衡,从而提升训练速度,但并未进行详细的量化分析。
5. 训练加速总结
综合考虑FP8加速和其它优化策略,作者估计总的训练加为一倍左右。作者强调,单纯追求成倍提升训练速度是不现实的,突破gemm/attention MFU才是关键。作者的策略是增大mb/seq,优化gemm/attention计算占比,降低通信占比。
6. 推理加速策略
在推理方面,该模型相比于V2版本,吞吐量提升了3倍以上,MTP提升了1.8倍。文章指出,推理加速主要得益于MB pipeline编排实现All-to-All overlap,PD分离,以及预填充(prefill)架构和解码架构的不同。 文章还重点介绍了其分布式推理架构,特别是解码集群的设计,其中包含了冗余expert的设计,以应对热点expert问题和提高容错能力。但是,文章也指出了集群容灾问题有待进一步解决。
7. 总结与展望
文章对该大模型的训练和推理加速策略进行了深入分析,并指出了其潜在的瓶颈和优化方向。作者强调了可观测性、硬件和软件协同优化以及对计算瓶颈的深刻理解的重要性。 文章信息基于对论文的理解和推测,期待更多业内人士的讨论和补充。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。