强化学习之父 Rich Sutton 最新演讲:用「去中心化神经网络」应对深度学习局限性


灾难性遗忘是大模型时代的下一个突破口。

强化学习之父 Rich Sutton 最新演讲:用「去中心化神经网络」应对深度学习局限性

原标题:强化学习之父 Rich Sutton 最新演讲:用「去中心化神经网络」应对深度学习局限性
文章来源:AI科技评论
内容字数:19172字

第六届国际分布式人工智能会议(DAI 2024)要点总结

第六届国际分布式人工智能会议(DAI 2024)于新加坡管理大学成功举办,会议亮点之一是邀请了多位重量级嘉宾,探讨了人工智能领域的前沿研究,特别是深度学习的局限性及其解决方案

1. 深度学习的局限性与灾难性遗忘

现代强化学习奠基人Richard S. Sutton教授指出,当前深度学习面临灾难性遗忘、可塑性丧失和模型坍塌等问题,这些问题严重制约了人工智能的持续学习能力。 这些问题尤其在长时间训练中凸显,而传统深度学习通常不会进行长时间训练,因此这些问题容易被忽视。

2. 去中心化神经网络:一种新的解决方案

Sutton教授提出了“去中心化神经网络”的概念,其核心思想是赋予每个神经元的目标,例如传递有效信息、保持自身活跃等。这种设计旨在保持“骨干”神经元的稳定性,同时鼓励“边缘”神经元探索,增强网络的适应性和持续学习能力。 他同时介绍了创新算法——持续反向传播(Continual Backprop),该算法通过选择性地重新初始化部分神经元来提升模型的灵活性和学习效果,在多个持续学习任务中表现优于传统方法。

3. 持续学习的挑战与证据

Sutton教授展示了深度学习在持续监督学习中失去可塑性和在长期强化学习中崩溃的证据。 在ImageNet数据集上的实验表明,深度学习模型在持续学习多个二元分类任务时,其性能会随着任务数量的增加而下降,甚至低于线性基线。 在蚂蚁行走强化学习任务中,深度学习模型在长时间训练后,性能也会严重退化。

4. 应对挑战的策略:变异与选择性生存

为了解决深度学习的持续学习问题,Sutton教授提出需要在未充分利用的神经元中增加额外的变化源,并保护和保留那些被证明有用的神经元。 这是一种“生成”的策略,即尝试各种可能性,并保留好的结果。 持续反向传播算是基于这一策略,通过选择性地重新初始化神经元来实现。

5. 流算法的突破

会议上还介绍了阿尔伯塔大学的研究成果,即开发出在强化学习中具有竞争力的在线流算法。 这些算法无需保存数据,能够实时处理数据,这对于持续学习具有重要意义。

6. 会议其他内容

DAI 2024涵盖了多智能体系统、强化学习、深度学习、博弈论、AI Agents 和 LLM 推理等多个领域,展示了多个前沿研究成果,例如具身智能、博弈论、开放环境中的多智能体强化学习以及大语言模型驱动的代码智能体等。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

暂无评论

暂无评论...