清华翟季冬:DeepSeek 百倍算力效能背后的系统 | 智者访谈

AI快讯 1个月前 atcat
0 0

中美硬件差异下的算力突围

清华翟季冬:DeepSeek 百倍算力效能背后的系统 | 智者访谈

原标题:清华翟季冬:DeepSeek 百倍算力效能背后的系统 | 智者访谈
文章来源:机器之心
内容字数:15615字

DeepSeek 引发的 AI 算力:系统软件创新与机遇

2025 年伊始,DeepSeek 团队以 2048 张 H800 GPU,在两个月内训练出媲美全球顶尖水平的大模型,打破了 AI 领域“更大即更好”的传统观念,引发了业界对算力利用效率的深刻反思。

1. DeepSeek 的成功:算法与系统软件的协同创新

DeepSeek 的突破并非仅仅依赖算力规模,更在于其在算法和系统软件层面的深度创新。 它采用创新的 MoE 架构,并通过精细化的系统工程优化,例如双向流水并行机制、混合精度计算和低精度通信策略等,极大地提升了性价比,实现了百倍的性能提升。这表明,在算力资源受限的情况下,通过算法和软件的协同创新,能够充分挖掘硬件的极致性能。

2. 算力效能评估的新视角:超越 GPU 利用率

文章指出,单纯依靠 GPU 利用率来评估算力利用效率是不够全面的。 一个有效的评估体系需要考虑整个集群的资源利用情况,包括网络、存储等,并且要根据不同的应用场景(训练、推理)选择合适的指标,例如吞吐量、延迟和成本等。降低推理成本对于 AI 应用的推广至关重要。

3. 中美硬件差异下的软件思考:探索中国特色发展路径

由于中美在硬件方面的差异,中国需要探索出一条符合自身现实情况的 AI 发展路径。 这需要学习借鉴国外的先进经验,同时针对国产芯片的特点进行创新,打通从应用到系统软件再到自主芯片的完整链路。 这不仅是技术创新,更是战略抉择。

4. Transformer 专用芯片的挑战与机遇

目前,尚未出现专门针对 Transformer 的专用芯片,这主要是因为 AI 模型发展迅速,Transformer 架构也持续演进,难以设计出通用的、长期有效的专用芯片。 NVIDIA 的做法——通过相对稳定的硬件架构和灵活的软件适配——为我们提供了宝贵的经验。

5. 万卡集群训练的挑战与系统软件的应对

万卡集群训练面临着并行策略选择、通信效率、容错机制和单卡性能等多方面的挑战。 未来,系统软件需要针对不同阶段(预训练、后训练、微调、推理)的负载特点进行优化,并解决负载不均衡等问题。 此外,还需要关注 KV Cache 管理和多卡协同等关键技术。

6. 智算中心算力供需错配:系统软件的补位作用

文章指出,目前存在智算中心国产算力闲置,而应用开发者又缺乏算力的现象。 这凸显了系统软件的重要性,需要通过提升国产算力的易用性,来促进国产算力的有效利用,从而推动 AI 产业发展。

7. 未来趋势:系统软件的全面发展和算力资源的统一管理

未来 1-3 年内,系统软件优化将朝着构建完整的基础软件体系方向发展,包括编程语言、编译器、通信库、并行计算和编程框架等多个层面。 同时,需要建立完善的算力度量标准和统一的算力管理平台,让算力像水电一样成为便捷的基础设施。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

版权声明:atcat 发表于 2025-02-04 14:08:23。
转载请注明:清华翟季冬:DeepSeek 百倍算力效能背后的系统 | 智者访谈 | 86AIGC导航

暂无评论

暂无评论...