图像生成与各种编辑任务大一统!贾佳亚团队提出DreamOmni:训练收敛速度快且性能强大


DreamOmni,一种用于T2I生成和编辑的统一模型

图像生成与各种编辑任务大一统!贾佳亚团队提出DreamOmni:训练收敛速度快且性能强大

原标题:图像生成与各种编辑任务大一统!贾佳亚团队提出DreamOmni训练收敛速度快且性能强大
文章来源:智猩猩GenAI
内容字数:11866字

DreamOmni: 统一图像生成与编辑框架

本文主要介绍了一种名为DreamOmni的统一图像生成与编辑框架,该框架旨在解决现有文本到图像(T2I)模型在处理下游应用和编辑任务时面临的挑战,例如需要集成各种插件或扩展输入通道,以及高质量编辑数据难以获取的问题

1. 问题与方案

现有的T2I模型通常专注于单一任务,难以适应多种图像编辑任务(如基于指令的编辑、图像修复与扩展、拖拽编辑、参考图像生成等)。DreamOmni旨在通过一个统一框架解决这个问题,并提出了一种高效的合成拼贴数据pipeline来解决高质量编辑数据缺乏的问题。

2. DreamOmni框架

DreamOmni框架的核心是其多任务统一设计。它通过将VLM(视觉-语言模型)特征与噪声隐空间变量进行拼接,并输入到DIT(Diffusion-Integrated Transformer)块进行处理,从而实现统一的图像生成与编辑。该框架避免了对特定任务插件的依赖,提高了模型的泛化能力和部署效率。实验表明,DIT块优于传统的Unet结构,具有更快的收敛速度。

3. 合成拼贴数据pipeline

为了解决高质量编辑数据缺乏的问题,DreamOmni引入了合成拼贴数据pipeline。该pipeline能够高效地生成用于各种编辑任务的数据,包括基于指令的编辑(添加、删除、替换)、图像修复与扩展、拖拽编辑(平移、缩放、旋转)、参考图像生成以及分割与检测。该pipeline生成的合成数据显著提升了T2I模型的准确性和生成质量,特别是对于文本、形状、颜色、位置和数量等属性的生成。

4. 模型训练与实验结果

DreamOmni使用了2.5B参数的模型,并结合了1.25亿张T2I图像数据和6000万张合成数据进行训练。训练过程分为三个阶段,逐步提高图像分辨率和训练精度。实验结果表明,DreamOmni在T2I生成、图像修复、参考图像生成、基于指令的编辑和拖动编辑等多个任务上均取得了显著的成果,并在多个指标上超越了现有SOTA模型。

5. 关键技术与优势

DreamOmni的关键技术包括:多任务统一框架、高效的合成拼贴数据pipeline、基于DIT的模型结构以及Rectified Flow优化方法。其优势在于:统一框架提高了模型的泛化能力和部署效率;合成数据pipeline解决了高质量编辑数据缺乏的问题;DIT结构提高了模型的训练效率和性能;Rectified Flow优化方法提升了模型的生成质量。

6. 结论

DreamOmni框架为T2I生成和图像编辑提供了一个统一、高效且强大的解决方案。其多任务统一设计和高效的合成数据pipeline,显著提升了模型的性能和泛化能力,为图像生成与编辑领域带来了新的突破。

注意:文章中关于自动驾驶峰会的预告信息与DreamOmni模型的研究内容无关,已将其分开描述。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

暂无评论

暂无评论...