幻方AI ESFT：针对 MoE 的高效微调方案，媲美全参微调

AIGC动态欢迎阅读

原标题：幻方AI ESFT：针对 MoE 的高效微调方案，媲美全参微调
关键字：专家,参数,解读,任务,作者
 文章来源：智猩猩 AGI
内容字数：0字

内容摘要：

生成式AI时代最火AI芯片峰会下月来袭！9月6-7日，智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯片专场、智算集群技术论坛等7大板块。目前，来自AMD、高通、Habana、壁仞科技、摩尔线程、苹芯科技、亿铸科技、凌川科技、云天励飞、中国移动研究院、北极雄芯等40+企业的嘉宾已确认演讲或讨论。扫码报名或购票～01背景本文中我们简单介绍一下幻方 AI 最近发布的针对 MoE 模型的高效微调方案 ESFT。（PS：需要说明的是，作者仅在 DeepSeek-V2-Lite 上评估，其每层有多达 66 个专家，对于常见的每层 8 个或 16 个专家的 MoE 模型是否有用还待商榷。）
对应的论文为：[2407.01906] Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models
对应的开源模型为：Huggingface deepseek-ai (DeepSeek)

原文链接：幻方AI ESFT：针对 MoE 的高效微调方案，媲美全参微调