原标题:国产大模型DeepSeek-V3一夜火爆全球,《DeepSeek-V3技术报告》,53页pdf
文章来源:人工智能学家
内容字数:10891字
国产大模型DeepSeek-V3惊艳全球
近日,一款名为DeepSeek-V3的国产大模型在全球范围内引发热议。其参数量高达671B,却仅使用了278.8万H800 GPU小时完成训练,这远低于其他同级别模型的训练成本,例如Llama 3系列模型就需要3930万H100 GPU小时。DeepSeek-V3的惊人效率和性能使其迅速成为焦点。
高效训练与卓越性能
1. **低成本高效率:** DeepSeek-V3的训练效率是其最大亮点。相比其他模型动辄数千万GPU小时的训练成本,DeepSeek-V3的训练成本极低,这主要归功于其创新的MLA(多头隐注意力)和DeepSeekMoE架构,以及无辅助损失的负载平衡策略和多token预测训练目标等技术。
2. **性能超越预期:** DeepSeek-V3在多项基准测试中表现出色,甚至在一些任务上超越了GPT-4o和Claude 3.5 Sonnet等领先的闭源模型。其在英语、代码、数学、汉语以及多语言任务上的表现都非常突出,尤其在MATH 500、AIME 2024、Codeforces等方面优势明显。
3. **技术创新:** DeepSeek-V3的核心技术包括MLA、DeepSeekMoE架构、无辅助损失的负载平衡策略以及多token预测训练目标。这些技术在DeepSeek-V2中已经得到验证,并在DeepSeek-V3中得到进一步优化。
社区反响与未来展望
1. **专家高度评价:** 多位知名AI科学家,如Meta AI研究科学家田渊栋、著名AI科学家Andrej Karpathy和创业者贾扬清都对DeepSeek-V3给予了高度评价,认为其在资源有限的情况下取得了卓越的成果,并标志着分布式推理时代的到来。
2. **社区积极参与:** DeepSeek-V3开源后,迅速获得了广泛关注,在OpenRouter平台上的使用量已增长3倍。用户们纷纷分享使用体验,进一步推动了社区的活跃度。
3. **长上下文扩展:** DeepSeek-V3通过两阶段扩展训练,能够处理长达128K的输入,并在长文本任务中表现出稳健的性能。
技术细节
1. **架构:** DeepSeek-V3采用MLA和DeepSeekMoE架构,并使用多token预测(MTP)训练目标。
2. **预训练数据:** DeepSeek-V3使用14.8万亿高质量token进行预训练,并优化了数学和编程样本的比例,扩展了多语言覆盖范围。
3. **模型超参数:** Transformer层数为61,隐藏层维度为7168,注意力头数量为128,每个头的维度为128。
4. **后训练:** DeepSeek-V3进行了监督式微调和强化学习等后训练。
DeepSeek-V3的出现,再次点燃了人们对开源大模型的热情,也为大模型技术的发展提供了新的方向和思路。其高效的训练方法和强大的性能,有望推动AI技术在更多领域的应用。
联系作者
转载请注明:国产大模型DeepSeek-V3一夜火爆全球,《DeepSeek-V3技术报告》,53页pdf | 86AIGC导航