标签:强化学习

o1开启LLM新范式,Ai2科学家解析背后秘籍:推理和强化学习是关键
原标题:o1开启LLM新范式,Ai2科学家解析背后秘籍:推理和强化学习是关键文章来源:新智元内容字数:9725字语言模型推理现状及OpenAIo1模型解读本文总结了Ai2研究科学家NathanLambe……
DeepSeek-R1开源模型爆火:性能比肩GPT-4,强化学习飞轮效应显著
原标题:DeepSeek-R1开源模型爆火:性能比肩GPT-4,强化学习飞轮效应显著文章来源:小夏聊AIGC内容字数:3593字DeepSeek-R1:中国开源AI的惊艳亮相近日,一款名为DeepSeek-R1的大型……
张俊林:MCST树搜索会是复刻OpenAI O1/O3的有效方法吗
本文介绍R1和K1.5以及MCST方法的主要思路。原标题:张俊林:MCST树搜索会是复刻OpenAIO1/O3的有效方法吗文章来源:智猩猩GenAI内容字数:18671字DeepSeekR1,KimiK1.5,andrStar-Math……
UC伯克利等提出具身智能「动作Tokenizer」,效率飙升5倍!
原标题:UC伯克利等提出具身智能「动作Tokenizer」,效率飙升5倍!文章来源:新智元内容字数:4818字高效训练机器人Transformer:FAST动作Tokenizer的突破本文总结了PhysicalIntell……
图灵奖得主杨立昆最新万字实录:我们离真正的Agent还差几大关键技术
原标题:图灵奖得主杨立昆最新万字实录:我们离真正的Agent还差几大关键技术文章来源:人工智能学家内容字数:16553字Meta首席AI科学家杨立昆在CES2025对谈:AGI、JEPA与AI智能体的……
田渊栋:2024年年终总结
原标题:田渊栋:2024年年终总结文章来源:新智元内容字数:7452字田渊栋2024年AI研究总结及2025年展望本文总结了田渊栋博士2024年在人工智能领域的研究成果,并展望了2025年的发展……
轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机
让无人机飞得更加平稳!原标题:轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机文章来源:机器之心内容字数:6530字清华大学团队SimpleFlight:解决强化学习无人机……
轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机
让无人机飞得更加平稳!原标题:轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机文章来源:机器之心内容字数:6530字清华大学团队SimpleFlight:解决强化学习无人机……
哪家AI能成卧底之王?淘天技术团队发布多智能体博弈游戏平台WiS
WiS平台揭示了LLMs在多智能体环境中的潜能与局限性。原标题:哪家AI能成卧底之王?淘天技术团队发布多智能体博弈游戏平台WiS文章来源:机器之心内容字数:7370字机器之心AIxiv专栏……
利用强化学习打造绿色未来:Meta如何提升数据中心可持续性
在最近的一篇博客文章中,Meta描述了其工程师如何使用强化学习(RL)来优化Meta数据中心的环境控制策略,从而减少能源消耗和用水量,同时应对气候变化等更广泛的挑战。原标题:Meta……
12