强化学习 | 86AIGC导航

原标题：o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键文章来源：新智元内容字数：9725字语言模型推理现状及OpenAIo1模型解读本文总结了Ai2研究科学家NathanLambe……

2个月前

原标题：DeepSeek-R1开源模型爆火：性能比肩GPT-4，强化学习飞轮效应显著文章来源：小夏聊AIGC内容字数：3593字DeepSeek-R1：中国开源AI的惊艳亮相近日，一款名为DeepSeek-R1的大型……

2个月前

本文介绍R1和K1.5以及MCST方法的主要思路。原标题：张俊林：MCST树搜索会是复刻OpenAIO1/O3的有效方法吗文章来源：智猩猩GenAI内容字数：18671字DeepSeekR1,KimiK1.5,andrStar-Math……

2个月前

原标题：UC伯克利等提出具身智能「动作Tokenizer」，效率飙升5倍！文章来源：新智元内容字数：4818字高效训练机器人Transformer：FAST动作Tokenizer的突破本文总结了PhysicalIntell……

2个月前

原标题：图灵奖得主杨立昆最新万字实录：我们离真正的Agent还差几大关键技术文章来源：人工智能学家内容字数：16553字Meta首席AI科学家杨立昆在CES2025对谈：AGI、JEPA与AI智能体的……

3个月前

原标题：田渊栋：2024年年终总结文章来源：新智元内容字数：7452字田渊栋2024年AI研究总结及2025年展望本文总结了田渊栋博士2024年在人工智能领域的研究成果，并展望了2025年的发展……

3个月前

让无人机飞得更加平稳！原标题：轨迹跟踪误差直降50％，清华汪玉团队强化学习策略秘籍搞定无人机文章来源：机器之心内容字数：6530字清华大学团队SimpleFlight：解决强化学习无人机……

3个月前

让无人机飞得更加平稳！原标题：轨迹跟踪误差直降50％，清华汪玉团队强化学习策略秘籍搞定无人机文章来源：机器之心内容字数：6530字清华大学团队SimpleFlight：解决强化学习无人机……

3个月前

WiS平台揭示了LLMs在多智能体环境中的潜能与局限性。原标题：哪家AI能成卧底之王？淘天技术团队发布多智能体博弈游戏平台WiS文章来源：机器之心内容字数：7370字机器之心AIxiv专栏……

3个月前

在最近的一篇博客文章中，Meta描述了其工程师如何使用强化学习（RL）来优化Meta数据中心的环境控制策略，从而减少能源消耗和用水量，同时应对气候变化等更广泛的挑战。原标题：Meta……

4个月前

AICAT ─ 全球3000+优质AI工具盘点，热门AI教程推荐