以仅15M的图文对数据用于图文对齐,实现了在视觉理解、生成、编辑等多元任务上的出色表现。
原标题:理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化
文章来源:机器之心
内容字数:4469字
华为诺亚方舟实验室提出ILLUME:一款高效的多模态理解与生成一体化大模型
机器之心报道,华为诺亚方舟实验室近期提出了一种名为ILLUME的统一多模态大模型,该模型致力于将视觉理解和生成能力融合到同一个框架中,实现了对多模态任务的全新诠释。ILLUME以LLM为核心,采用“连续图像输入+离散图像输出”的架构,在仅使用约15M的图文对数据的情况下,便在视觉理解、生成和编辑等多种任务上取得了优异的表现,其性能甚至可以与专用单任务模型相媲美。
ILLUME 的主要贡献
1. 高效的训练方法:ILLUME在保持架构可扩展性和泛化性的前提下,通过合理的视觉词表、训练策略和数据配比策略,仅用少量数据实现了在多种视觉任务上的出色表现,超越了现有许多统一多模态模型,如Chameleon、Show-O和Janus。
2. 自提升式多模态对齐策略:ILLUME提出了一种创新的自提升多模态对齐策略。该策略通过让模型对自身生成的负样本进行内省式评估,实现理解和生成能力的协同进化。生成能力可以帮助模型更准确地理解图像,而理解能力则能反过来提升模型的生成精度,避免错误。
ILLUME 的关键设计
1. 语义特征重建的视觉词表:ILLUME采用语义特征重建的方式构造视觉词表,直接在高层语义空间中完成图文对齐的特征学习,这与传统基于VQGAN的视觉词表方法相比,能够显著加速模型的预训练过程,并提高图文对齐的效率。
2. 三阶段训练策略:ILLUME采用三阶段训练策略:第一阶段进行图像重建,初始化模型参数并对齐输入输出模式;第二阶段进行图文对齐预训练;第三阶段对高质量数据进行微调,以提升模型在多种视觉文本任务上的性能。
ILLUME 的自提升多模态对齐策略
该策略包含三个步骤:首先,模型自生成图像数据;其次,对生成的图像进行多维度评估,包括物体、数量、颜色和空间关系等;最后,将评估数据重新格式化并加入到第三阶段训练中,从而强化模型的理解和生成能力。
ILLUME 的实验结果
ILLUME在多模态理解任务上取得了SOTA水平,尤其在文档理解方面表现突出;在文图生成任务上取得了与现有模型相当的结果;并且能够有效处理图像编辑任务,例如物体删除、风格迁移和图像补充等。
总结
ILLUME 作为一款高效的多模态理解与生成一体化大模型,通过巧妙的架构设计、训练策略和自提升式多模态对齐策略,在数据效率和模型性能方面都取得了显著的突破。其在多模态理解、生成和编辑任务上的出色表现,为构建更强大、更通用的多模态人工智能系统奠定了坚实的基础。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台