仅有379M参数
原标题:终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
文章来源:机器之心
内容字数:7536字
SnapGen:轻量级移动端文生图模型
本文介绍了Snap研究院Creative Vision团队提出的SnapGen模型,这是一个仅有379M参数的文生图模型,可在iPhone 16 Pro Max上以1.4秒的速度生成1024×1024像素的高质量图像。该模型在多个基准测试中超越了参数量更大的模型,展现了其在移动端部署的高效性和高性能。
1. 模型高效性
SnapGen的成功源于对模型架构和训练方法的全面优化。研究团队对去噪UNet和图像解码器进行了精细调整,在资源使用和性能之间取得最佳平衡。具体优化包括:移除高分辨率自注意力层,使用宽度扩展的深度可分卷积替代常规卷积,降低全连接层中间通道维度,更早注入文本条件信息,以及优化自注意力和交叉注意力算子等。
通过在ImageNet-1K数据集上的实验,验证了这些架构优化的有效性。SnapGen在生成质量与现有模型相当的情况下,显著降低了模型大小和计算量。
图像解码器方面,团队通过移除冗余的自注意力机制和GroupNorm层,并减小网络宽度,实现了近乎无损的36倍参数压缩和54倍的解码加速。
2. 多级知识蒸馏
SnapGen利用SD3.5-Large作为教师模型进行知识蒸馏。为了解决教师模型和学生模型的异构性以及不同时间步上蒸馏损失函数尺度不一致的问题,团队提出了一种多级知识蒸馏框架,包含输出蒸馏和特征蒸馏,并采用了时间步感知的缩放操作,加速了训练并提升了模型生成能力。
3. 步数蒸馏
为了进一步减少推理时间,SnapGen使用了基于LADD的少步数蒸馏,将4步模型SD3.5-Large-Turbo作为教师模型和判别器的特征提取器。结果表明,经过蒸馏后的模型在4步和8步推理下仍能保持与28步相当的生成质量。
4. 实验结果
在GenEval、DPG-Bench、CLIP Score on COCO和ImageReward等多个基准测试中,SnapGen在参数量最小、吞吐量最高的情况下,仍取得了领先的性能。人类偏好测试也表明,SnapGen生成的图像在真实感、美学和文字图像一致性方面与SD3-Medium和SD3.5-Large接近,并显著超越SDXL。
5. 结论
SnapGen通过高效的模型架构、先进的知识蒸馏和少步数蒸馏算法,实现了在移动端高效生成高质量图像的目标。它为文生图模型的轻量化和移动端部署提供了一种新的思路,也为生成模型研究带来了新的启发。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台