BrushEdit是腾讯与北京大学等多家机构联合开发的一款前沿图像编辑框架,作为BrushNet模型的高级版本,它结合了多模态大型语言模型(MLLMs)和双分支图像修复模型,支持基于指令的图像编辑和修复。用户可以通过自然语言指令进行灵活且多轮次的编辑操作,轻松实现对图像的添加、删除等大幅度修改,同时保持背景的自然连贯性,极大提升了图像编辑的灵活性和用户体验。
BrushEdit是什么
BrushEdit是腾讯、北京大学、香港中文大学及清华大学共同推出的先进图像编辑框架,作为BrushNet模型的升级版本,框架融合了多模态大型语言模型(MLLMs)与双分支图像修复模型,能够实现基于指令的图像编辑和修复。用户可以使用自然语言进行形式的、多轮交互式的编辑操作,BrushEdit不仅支持对图像进行大幅度的修改,同时还能保持背景的自然性,提升了用户的编辑体验。
BrushEdit的主要功能
- 指令驱动的图像编辑:用户可以通过自然语言指令来指导图像编辑任务,例如添加、删除或修改图像中的元素。
- 多轮交互式编辑:支持用户在编辑过程中进行多轮互动,逐步调整和完善编辑效果。
- 形式的掩码编辑:用户可以绘制掩码来指定编辑区域,无需使用精确的分割工具。
- 背景和前景的处理:框架能够有效区分编辑区域(前景)与非编辑区域(背景),确保编辑操作不影响图像的其他部分。
- 智能图像修复:自动填充和修复图像中的缺失区域或指定区域,例如去除不必要的对象或填补空白。
BrushEdit的技术原理
- 多模态大型语言模型(MLLMs):使用预训练的MLLMs解析用户的形式编辑指令,识别编辑类型和目标对象。
- 双分支图像修复模型:框架采用双分支结构,其中一个分支处理掩码区域的图像生成,另一个分支负责处理未掩码区域的背景信息。
- 代理协作机制:通过代理(代理指导者与代理指挥者)之间的协作,实现编辑类别分类、主要对象识别、掩码获取及编辑区域修复。
- 特征融合技术:将用户指令和掩码信息融合至图像修复模型中,引导模型在掩码区域内生成符合指令的内容。
- 零卷积层与特征插入:通过零卷积层将冻结的预训练模型与可训练的BrushEdit模型连接,降低早期训练阶段的噪声,逐层集成特征以实现精细控制。
- 混合微调策略:结合随机掩码和分割掩码的微调策略,使模型能够处理多种掩码任务,不受特定掩码类型的限制。
BrushEdit的项目地址
- 项目官网:liyaowei-stu.github.io/project/BrushEdit
- GitHub仓库:https://github.com/TencentARC/BrushEdit
- HuggingFace模型库:https://huggingface.co/TencentARC/BrushEdit
- arXiv技术论文:https://arxiv.org/pdf/2412.10316
BrushEdit的应用场景
暂无评论...