陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存

陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存

AIGC动态欢迎阅读

原标题:陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存
关键字:腾讯,模型,上下文,编码器,解码器
文章来源:量子
内容字数:4553字

内容摘要:


丰色 发自 凹非寺量子位 | 公众号 QbitAI陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法
它仅用8k大小的token文档进行训练,就能将Llama-2窗口扩展至128k。
最重要的是,在这个过程中,只需要原来1/6的内存,模型就获得了10倍吞吐量。
除此之外,它还能大大降低训练成本:
用该方法对7B大小的羊驼2进行改造,只需要一块A100就能搞定。
团队表示
希望这个方法有用、好用,为未来的LLM们提供廉价又有效的长上下文能力。
目前,模型和代码都已在HuggingFace和GitHub上发布。
只需添加两个组件这个方法名叫CEPE,全称“并行编码上下文扩展(Context Expansion with Parallel Encoding)”。
作为轻量级框架,它可用于扩展任何预训练和指令微调模型的上下文窗口。
对于任何预训练的仅解码器语言模型,CEPE通过添加两个小组件来实现扩展:
一个是小型编码器,用于对长上下文进行块编码;
一个是交叉注意力模块,插入到解码器的每一层,用于关注编码器表示。
完整架构如下:
在这个示意图中,编码器模型并行编码上下文的3个额外块,并与


原文链接:陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

暂无评论

暂无评论...