翼支付全新「增强半自回归投机解码框架」。
原标题:AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3
文章来源:机器之心
内容字数:6782字
中国电信翼支付AAAI 2025论文:Falcon大模型推理加速框架
本文总结了中国电信翼支付发表在AAAI 2025上的论文《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》的核心内容。该论文提出了一种名为Falcon的增强型半自回归投机解码框架,显著提升了大型语言模型(LLMs)的推理速度。
1. 研究背景:LLMs推理速度瓶颈
大型语言模型在各种任务中表现出色,但其自回归(AR)解码方式导致推理速度慢、计算开销大。投机解码(Speculative Decoding)方法应运而生,它使用轻量级的Draft Model预先生成候选Token,再由原始LLM进行验证,从而实现并行解码,提升效率。然而,现有的AR和SAR Draft策略都存在不足:AR Draft并行性差,SAR Draft的Token接受率低。
2. Falcon框架:增强半自回归投机解码
为了解决上述问题,翼支付提出了Falcon框架。它包含三个主要组件:Embedding Layer、LM-Head和半自回归解码Head。Falcon的核心在于:
- Coupled Sequential Glancing Distillation (CSGD): 通过将真实Token和隐藏状态重新注入解码过程,提高SAR Draft Model的Token接受率,增强了对Token间关系的理解。
- Custom-Designed Decoding Tree (CDT): 允许Draft Model一次前向传播生成多个Token,并支持多次前向传播,有效提升了LLM对Token的接受率,加快了推理速度。它采用了一种特殊的因果掩码,允许模型访问同一block内的Token及之前的连续Token。
Falcon的架构图清晰地展示了这三个组件的交互方式以及CSGD和CDT方法在其中的作用。
3. 实验结果:显著的加速效果
实验结果表明,Falcon在多个数据集和模型上都取得了优异的性能,实现了约2.91-3.51倍的加速比,将推理成本降低到约原来的三分之一。
4. 业务应用:落地翼支付多个业务
Falcon技术已应用于翼支付的大模型产品InsightAI平台,并服务于数字人客服、借钱-翼小橙、人力-翼点通、财务-翼小财等多个业务。
5. 总结:突破LLMs推理瓶颈
Falcon框架通过CSGD和CDT的巧妙结合,有效解决了LLMs推理速度瓶颈问题。它在提升Draft Model准确率、采样效率和LLM验证效率方面取得了显著进展,为大模型的实际应用提供了强有力的支撑。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台