InstructMove – 东京大合 Adobe 推出基于指令的图像编辑模型
InstructMove是什么
InstructMove是由东京大学与Adobe公司联合开发的一款基于指令的图像编辑模型。该模型通过分析视频帧之间的变化,学习如何根据用户指令进行图像处理。它运用多模态大型语言模型(MLLMs)生成描述帧对变换的编辑指令,具备在保持内容一致性的基础上,执行复杂的非刚性编辑任务的能力,例如调整主体的姿势、改变面部表情和视角等。InstructMove利用真实视频帧作为数据源,确保编辑过程的自然性和真实性,有效克服了合成数据集在复杂编辑任务中的不足。此外,InstructMove支持基于掩码等控制机制进行精准的局部编辑,进一步提升了其在实际应用中的灵活性和实用性。
InstructMove的主要功能
- 非刚性编辑:能够根据指令调整图像中主体的姿势、表情等非刚性特征。
- 视角调整:按指令改变图像的拍摄视角,例如将相机视角向左或向右移动,以改变图像的构图和视觉效果。
- 元素重新排列:对图像中的元素进行重新排序或移动,例如将玩具的腿放在一起,使鸟的尾巴更为显眼,以满足特定编辑需求。
- 精确局部编辑:结合掩码等控制机制,支持对图像特定区域进行精确的局部编辑,实现更细致的修改效果。
InstructMove的技术原理
- 数据集构建
- 模型架构与训练
- 控制机制集成
- 掩码引导:支持与掩码等控制机制集成,实现精确的局部编辑。在推理阶段,利用掩码控制编辑区域,将更新后的潜在表示与参考潜在表示进行融合,以修改图像的特定部分。
- 其他空间控制:与ControlNet等可控扩散模型集成,接受用户提供的额外视觉线索(如草图或骨架关键点),以实现更复杂和精确的图像编辑操作。
InstructMove的项目地址
InstructMove的应用场景
暂无评论...