30 位贡献者,112 台 H100 GPU,用时 42 天。
去中心化训练的突破:Prime Intellect发布10B模型
2023年11月22日,Prime Intellect宣布成功训练出一个10B参数的AI模型——INTELLECT-1,并通过去中心化方式开源了相关技术和数据。这一成就被认为是历史上首个以去中心化形式训练的大型模型,标志着大型模型训练的范式发生了重要改变。
1. 关键技术与训练过程
INTELLECT-1基于Llama-3架构,在经过精心筛选的1万亿token数据集上训练而成,训练过程持续了42天,使用了112台H100 GPU,涉及全球30位贡献者。该团队在训练中实现了83%的总体计算利用率,尤其在美国节点上更是高达96%。
2. 训练框架与方法
Prime Intellect采用了名为“Prime”的去中心化训练框架,该框架是基于其开发的OpenDiLoCo技术。Prime框架支持容错训练,能够动态管理计算资源,优化全球分布式GPU网络中的通信和路由。通过伪梯度的int8量化与优化器同步,团队成功将通信带宽要求降低了多达2000倍。
3. 模型性能与能力
尽管INTELLECT-1在某些测试中表现出色,但在汉语能力和幻觉现象方面仍存在不足。AI社区对该模型的整体表现给予了积极评价,认为其在大规模去中心化训练方面展现出巨大的潜力。
4. 未来计划与目标
Prime Intellect的长期目标是实现开源AGI。团队计划扩大全球计算网络,激励社区参与,并进一步优化去中心化训练架构,以支持更大的模型。这一系列努力旨在防止AI能力被少数组织垄断,推动更开放和协作的AI发展。
总之,INTELLECT-1的发布不仅是技术上的突破,更是去中心化训练方法的一次成功尝试,展现了未来AI发展的新方向。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
暂无评论...