Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

AIGC动态欢迎阅读

原标题：Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习
关键字：字符,解读,模型,序列,神经网络
 文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
机器之心编辑部耽误业界好多年？「这是有史以来最大、最令人困惑的研究生涯错误，」Andrej Karpathy 感叹道。
上个周末，OpenAI 创始成员、研究科学家、原特斯拉前 AI 高级总监、AI 领域的大神 Andrej Karpathy 一直在后悔。后悔自己没有早点带领 OpenAI 开创大模型时代。是怎么一回事？看起来 Karpathy 认为当年早已认识到自回归语言模型的强大潜力，但却在很长一段时间里「误入歧途」，随大溜一起搞强化学习。2013 年的 Atari RL 论文被认为是深度强化学习的开山之作：一个通用学习算法就发现了 Breakout 和许多其他游戏的最佳策略，看起来，在很多任务上我们只需要对其进行足够的改进和扩展，就可以构建出强大的 AI 模型了。我们也还记得，在 Karpathy 跳槽去到特斯拉一年后，2018 年 OpenAI 推出了 OpenAI Five，利用强化学习的方法在 Dota 2 游戏上开始与职业选手过招。
在 2019 年，OpenAI 的研究者还训练神经网络，利用一只类人机械手来玩魔方，表明强化学习工具不仅仅可以处理虚拟任务，而

原文链接：Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习