原标题:田渊栋:2024年年终总结
文章来源:新智元
内容字数:7452字
田渊栋2024年AI研究总结及2025年展望
本文总结了田渊栋博士2024年在人工智能领域的研究成果,并展望了2025年的发展方向。
提升大语言模型推理和规划能力
田渊栋团队在2024年主要围绕提升大语言模型(LLM)在困难推理和规划问题上的能力开展研究。他们提出了一系列方法,包括:SearchFormer,通过记录A*搜索的中间步骤作为思维链进行训练;DualFormer,通过随机移除推理链中的部分token和步骤,实现快思考与慢思考的动态切换;以及Coconut,利用连续隐空间减少推理链长度,并通过课程学习逐步压缩思维链。这些方法在旅行规划等复杂问题上取得了显著效果,并为未来研究提供了新的方向。
利用组合优化工具增强LLM能力
除了改进LLM本身,田渊栋团队也探索了利用现有组合优化工具来增强LLM解决困难优化问题的能力。例如,他们将自然语言问题转化为符号表示,再调用混合整数规划(MILP)等工具求解,最终将结果转换回自然语言。这种方法保证了解的质量,并实现了接近实时的输出。
提高LLM训练和部署效率
在提高LLM训练效率方面,GaLore方法通过对模型权重梯度进行低维投影,显著降低了内存消耗,使得在单张RTX 4090显卡上训练7B参数模型成为可能。后续的Q-GaLore和Tensor-GaLore进一步优化了内存效率。在模型部署方面,MobileLLM探索了直接训练端侧小模型的技术,SpinQuant则优化了量化模型的鲁棒性。MagicPIG则针对Top-K注意力机制的效率问题提出了改进方案。
《破晓之钟》出版及AI辅助写作
除了学术研究,田渊栋的小说《破晓之钟》也于2024年出版。他计划在创作下一部小说时尝试使用AI辅助写作,并对目前大模型在辅助写作方面的能力进行了评价,认为虽然仍需大量人工修改,但已展现出一定的潜力。
2025年展望:个人AI工具及AGI的思考
田渊栋展望了2025年大模型将更加普及,并渗透到日常生活中。他分享了自己利用大模型开发会议管理工具和arXiv论文推荐Bot的经验,认为未来的竞争力将越来越依赖于个人对大模型工具的使用能力。他同时对AGI进行了思考,认为AGI的关键在于AI是否达到人类的学习效率,并强调了系统化理论化研究的重要性。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。