Edicho – 蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法
Edicho是什么
Edicho 是由香港科技大学、蚂蚁集团、斯坦福大学和香港中文大合开发的一种基于扩散模型的图像编辑工具,旨在实现多图像间的一致性编辑。该方法具有免训练的特点,用户无需额外的训练过程即可直接使用。Edicho 的核心理念是通过显式的图像对应关系来指导编辑流程,结合注意力操作模块(Corr-Attention)和分类器引导(CFG)去噪策略,确保不同图像间的编辑效果保持一致性。Corr-Attention 利用显式的对应关系增强自注意力机制,从而有效地将源图像的特征传递到目标图像。而 Corr-CFG 则通过修改 CFG 的计算,结合预先计算的对应关系,引导生成过程更接近期望的编辑效果,同时保持高质量的图像输出。
Edicho的主要功能
- 一致性图像编辑:能够在多张图像上进行一致性编辑,包括局部编辑(如图像修复)和全局编辑(如图像风格转换),保证编辑结果在各种场景中高度协调。
- 即插即用兼容性:作为推理算法,Edicho 可与大部分基于扩散的编辑方法(如 ControlNet 和 BrushNet)无缝集成,无需额外的训练数据,便可直接应用于实际任务。
- 广泛任务适用性:除了图像编辑,Edicho 还可以扩展到个性化内容创作、3D 重建及一致性纹理应用等多个领域,显著拓宽了其应用范围。
Edicho的技术原理
- 显式图像对应性引导:通过显式图像对应性来引导编辑过程,克服传统隐式对应性方法的局限性。采用预训练的对应性提取器(如 DIFT 和 Dust3R)从输入图像中提取稳健的对应性,并将这些预计算的显式对应性融入扩散模型的去噪过程,从而确保编辑的一致性。
- 注意力操作模块(Corr-Attention):增强的注意力机制基于图像之间的对应性引导特征传递。在自注意力模块中,通过显式对应性对查询特征进行变换,从源图像中借用相关特征,形成新的查询矩阵,从而在去噪过程中实现编辑的一致性。
- 优化的分类器引导(CFG)去噪策略(Corr-CFG):结合预计算的对应性,在编辑过程中保持高质量和一致性。通过修改 CFG 的计算方式,在对应关系的引导下控制 CFG 框架中的无条件分支,融合无条件嵌入特征,进一步强化一致性效果,同时也保留了预训练模型强大的生成先验特性。
Edicho的项目地址
- 项目官网:https://ezioby.github.io/edicho
- GitHub仓库:https://github.com/EzioBy/edicho
- arXiv技术论文:https://arxiv.org/pdf/2412.21079
Edicho的应用场景
暂无评论...