9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠


9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

原标题:9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠
文章来源:新智元
内容字数:4752字

视觉价值模型VisVM:提升多模态视觉语言模型的图像描述质量

本文总结了马里兰大学和微软研究团队提出的视觉价值模型(VisVM)及其在提升多模态视觉语言模型(VLM)性能方面的研究成果。VisVM通过推理时搜索策略,显著提高了图像描述的准确性和细节丰富性,并有效减少了模型的幻觉现象。

  1. VisVM的工作原理

    VisVM的核心思想是利用一个价值网络来指导VLM在推理阶段进行搜索。该价值网络通过对逐步生成的描述性标题提供奖励信号,从而引导模型生成更优质的描述。训练过程中,VisVM利用VLM自身生成的多个多样化响应,并结合CLIP模型计算句子与图像的相似度作为奖励信号,最终形成用于训练VisVM的四元组数据。VisVM采用强化学习中的时序差分学习作为损失函数,能够评估当前句子与图像的匹配程度,并预测其对未来句子生成的影响,从而提供长期价值信号。

  2. 推理阶段搜索过程

    在推理阶段,VisVM引导VLM进行迭代搜索:首先生成多个句子候选;然后,VisVM评估这些候选句子与图像内容的匹配度及对未来句子的潜在影响(包括幻觉和细节程度);最后,选择最佳句子继续生成,最终构建完整且高质量的响应序列。

  3. 实验结果与分析

    实验结果表明,VisVM引导的搜索在图像描述质量方面显著优于其他方法,例如CLIP-PRM指导搜索、Best-of-N选择和贪婪解码。人类评估和GPT-4评估均显示VisVM生成的描述细节更丰富,幻觉更少,更受评估者青睐。VisVM甚至能够捕捉到人类标注者都难以察觉的细节,例如挡风玻璃上的水滴。在幻觉基准测试中,VisVM也取得了显著优于其他方法的效果。

    此外,研究还验证了VisVM引导搜索的扩展性(scaling law):随着搜索步骤的增加,模型性能持续提升,且VisVM的提升速度更快,计算效率更高。这表明增加推理时间计算量能显著增强VLM的视觉理解能力

  4. 自我训练与性能提升

    研究人员利用VisVM生成高质量的图像描述作为监督微调(SFT)数据,对基础模型LLaVA-Next-Mistral-7B进行训练。结果显示,VisVM引导的自我训练使模型性能平均提升了10.8%,尤其在视觉理解和推理能力方面有显著提高。这表明VisVM在自我训练框架中具有巨大潜力,仅通过在语言空间中进行高质量搜索和微调,就能显著提升原始VLM的性能。

总而言之,VisVM通过巧妙的推理时搜索策略,有效提升了多模态视觉语言模型的图像描述质量,减少了幻觉,并展现了在自我训练中的巨大潜力,为VLM的发展提供了新的方向。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

暂无评论

暂无评论...