多图场景用DPO对齐！上海AI实验室等提出新方法，无需人工标注

AIGC动态欢迎阅读

原标题：多图场景用DPO对齐！上海AI实验室等提出新方法，无需人工标注
关键字：图像,幻觉,模型,数据,研究者
文章来源：量子位
内容字数：0字

内容摘要：

刘子煜投稿量子位 | 公众号 QbitAI多图像场景也能用DPO方法来对齐了！
由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。
这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。
通过将单图像数据扩展至多图像数据，并设计序列、网格拼贴和图中图三种数据格式，MIA-DPO大幅降低了数据收集和标注成本，且具有高度可扩展性。
要知道，理解多图像上下文已经成为视觉语言大模型的发展趋势之一，许多数据集和评估基准被提出。不过幻觉问题依然很难避免，且引入多图像数据可能削弱单图像任务的表现。
虽然偏好对齐方法（如DPO）在单图像场景中已被证明有效，但多图像偏好对齐仍然是一个解决问题。
MIA-DPO不仅解决了这一问题，而且无需依赖人工标注或昂贵的API。
通过分析视觉大语言模型在多图像处理中的注意力分布差异，他们提出了一种基于注意力的选择方法（Attention Aware Selection），自动过滤掉关注无关图像的错误答案，构建了自动化、低成本且适用于多图像场景的DPO数据生成方法。
△MIA-DPO的整体介绍与实验结果。值得一提的是，该论文还获得了当日HuggingF