450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了


2025 年大模型技术的加速,你感受到了吗?

450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了

原标题:450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1AI社区沸腾了
文章来源:机器之心
内容字数:4780字

伯克利大学发布低成本性能推理模型Sky-T1-32B-Preview

近日,加州大学伯克利分校天空计算实验室的研究团队NovaSky发布了Sky-T1-32B-Preview,一个32B参数的推理模型,其训练成本仅为450美元。这引发了业界广泛关注,因为它标志着大模型训练成本的显著下降,并为开源社区提供了宝贵的资源。

  1. 低成本高性能的突破

    Sky-T1-32B-Preview的训练成本远低于以往同等性能模型动辄数百万美元的成本。其低成本主要归功于合成训练数据和由其他模型生成的训练数据的使用。 这与Writer公司发布的Palmyra X 004模型(70万美元开发成本,主要基于合成数据)的案例相呼应,预示着未来大模型训练成本将大幅降低。

  2. 开源与可复现性

    Sky-T1的另一个重要特点是完全开源。团队公开了训练数据集、训练代码和模型权重,任何人都可以复现其训练过程。这对于学术研究和开源社区的发展具有重要意义,打破了以往大型模型技术细节不透明的现状。与之形成对比的是,像OpenAIo1和Gemini 2.0等模型,其技术细节和模型权重并未公开。

  3. 性能与基准测试

    Sky-T1在多个关键基准测试中与OpenAI o1的早期版本表现相当,甚至在某些测试中胜出。例如,它在MATH500(竞赛级数学挑战)和LiveCodeBench(编码评估)上的表现优于o1的预览版本。 然而,在GPQA-Diamond(涉及物理、生物和化学的难题)上,其表现不如o1的预览版。

  4. 关键技术细节

    Sky-T1的训练数据由多个数据集混合构成,包括数学和编程任务的数据。团队使用了QwQ-32B-Preview模型生成初始数据,并通过拒绝采样和数据重写等方法提高数据质量。模型的训练使用了Qwen2.5-32B-Instruct作为基础模型,并通过DeepSpeed Zero-3 offload在8个H100 GPU上进行训练。

  5. 重要发现与未来展望

    研究团队发现模型大小和数据混合对最终性能至关重要。较小的模型(小于32B)容易生成重复内容,限制了其有效性。而均衡的数学和编程数据混合能够使模型在两个领域都表现出色。未来,随着技术的进步,个人甚至可以在本地运行参数量小于万亿级的模型。

总而言之,Sky-T1-32B-Preview的出现标志着大模型训练成本的显著降低和开源趋势的加强,为大模型技术的发展和应用带来了新的可能性。 然而,也有一些研究者对该模型的性能和可复现性提出了质疑,需要进一步的验证和讨论。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

暂无评论

暂无评论...