原标题:全模态对齐终于有了开源参考:北大团队发布 align-anything,数据、算法、评估一网打尽!
文章来源:夕小瑶科技说
内容字数:14675字
北大对齐小组:推动全模态大模型对齐研究的开源贡献
本文总结了北京大学对齐小组在全模态大模型对齐研究方面的最新进展,重点介绍了其开源项目“align-anything”及其成果。
全模态大模型对齐的挑战与机遇
随着多模态大模型(如GPT-4o、Chameleon、LLaMA-3.2-Vision)的兴起,如何将这些模型与人类意图对齐成为关键挑战。 全模态信息增加了输入输出空间的复杂性,也加剧了模型幻觉等问题。北大对齐小组致力于解决这一难题,并为此做出了重要贡献。
Beaver-Vision-11B:优越的对齐性能
基于LLaMA-3.2-Vision,北大对齐小组通过后训练微调得到了Beaver-Vision-11B模型。该模型在对齐性和指令遵循性方面超越了Meta官方微调的LLaMA-3.2-11B-Vision-Instruct,在图像识别和推理方面也展现出更强的能力,例如准确识别并解释图片中拉面餐厅的名称。
align-anything:全流程开源的贡献
为了促进社区的多模态对齐研究,北大对齐小组开源了“align-anything”项目,涵盖数据集、算法、评估和代码库四大方面。 其中,align-anything数据集包含20万条包含人类语言反馈和二元偏好的全模态数据(图、文、视频、语音),其高质量和细粒度的标注是其一大特色。
从语言反馈中学习 (LLF):提升对齐效率
北大对齐小组提出了“从语言反馈中学习”(LLF)算法,利用丰富的语言反馈信息来提升多模态大模型的对齐性能。该算法通过评论模型、模型自提升、奖励建模和强化学习微调四个步骤,有效地利用语言反馈,并展现出优于传统二元偏好数据的效率。
全模态评估:模态联动与模态选择
为了全面评估全模态模型的性能,“align-anything”项目还提出了模态联动和模态选择评估方法。模态联动评估模型是否能够整合不同模态信息并保持一致性;模态选择评估模型是否能够根据问题选择合适的模态进行回答。
align-anything框架:模块化、扩展性和易用性
align-anything框架支持多种模态(文生文、文生图、文图生文等)和对齐算法(SFT、DPO、PPO等),具有高度的模块化、扩展性和易用性。其设计理念是模态与算法解耦,方便用户扩展和定制。该框架还支持多种开源和闭源对齐评估基准。
基于align-anything框架的模型微调
北大对齐小组利用align-anything框架对Chameleon和LLaMA-3.2-11B-Vision模型进行了微调,并开源了改进后的模型(AA-Chameleon-7B-Plus和Beaver-Vision-11B),这些模型在多模态任务上取得了显著的提升。
总而言之,北大对齐小组的“align-anything”项目为全模态大模型的对齐研究做出了重要贡献,其开源的资源和方法将有助于推动该领域的发展。
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介:低负担解码AI世界,硬核也可爱!聚集35万AI发烧友、开发者和从业者,广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189
转载请注明:全模态对齐终于有了开源参考:北大团队发布 align-anything,数据、算法、评估一网打尽! | 86AIGC导航