Mamba-2:超越 Transformer 的新架构,训练效率大幅提升!

Mamba-2:超越 Transformer 的新架构,训练效率大幅提升!

AIGC动态欢迎阅读

原标题:Mamba-2:超越 Transformer 的新架构训练效率大幅提升!
关键字:矩阵,报告,状态,注意力,算法
文章来源:人工智能学家
内容字数:0字

内容摘要:


机器之心报道
来源:机器学习算法与Python学习自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。
但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。一个很明显的缺陷是:Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长。
几个月前,Mamba 的出现打破了这一局面,它可以随上下文长度的增加实现线性扩展。随着 Mamba 的发布,这些状态空间模型 (SSM) 在中小型规模上已经实现了与 Transformers 匹敌,甚至超越 Transformers。
Mamba 的作者只有两位,一位是卡内基梅隆大学机器学习系助理教授 Albert Gu,另一位是 Together.AI 首席科学家、普林斯顿大学计算机科学助理教授 Tri Dao。
Mamba 面世之后的这段时间里,社区反应热烈。可惜的是,Mamba 的论文却惨遭 ICLR 拒稿,让一众研究者颇感意外。
仅仅六个月后,原作者带队,更强大的 Mamba 2 正式发布了。论文地址:https://


原文链接:Mamba-2:超越 Transformer 的新架构,训练效率大幅提升!

联系作者

文章来源:人工智能学家
作者微信:AItists
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

版权声明:atcat 发表于 2024-12-31 18:02:29。
转载请注明:Mamba-2:超越 Transformer 的新架构,训练效率大幅提升! | 86AIGC导航

暂无评论

暂无评论...