标签:大模型数学推理

NEW仅用 8 张显卡和一万块钱,清华团队用7B模型打败GPT-4o数学推理
OpenAIo1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的ScalingLaw逐渐受到质疑的今天,基于探索的强化学习有望……