最新升级的视频评价标准来了
北京大学MMCAL团队开源首个视频编辑质量评估指标VE-Bench
北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench,并开源了相关代码与预训练权重。VE-Bench 关注AI视频编辑中一个核心问题:编辑前后结果与原始视频之间的联系。它能区分语义保持(例如“摘掉女孩的耳环”)和语义改变(例如“把女孩换成钢铁侠”)的编辑,并更好地与人类主观感受对齐。
1. 更丰富的数据库VE-Bench DB
VE-Bench DB 的构建涵盖四个方面:原始视频收集、提示词收集、视频编辑方法和主观标注。为了保证数据多样性,它收集了来自真实世界、CG渲染和AIGC的视频,包含DAVIS、Kinetics-700、Sintel、Spring等公开数据集的视频,以及Sora和可灵生成的AIGC视频和互联网补充视频。所有视频都调整为长边768像素,并裁剪为32帧。
2. 多样化的提示词
VE-Bench 将提示词分为风格编辑、语义编辑和结构编辑三大类,并针对每个类别人工编写了相应的提示词,涵盖颜色、纹理、氛围、背景、对象添加/替换/移除、大小、姿态、动作等方面。
3. 多种视频编辑方法
VE-Bench 选取了8种视频编辑方法,涵盖了从SD1.4到SD2.1的不同版本,以及基于ControlNet、PnP等不同策略的编辑方法,确保评估的全面性。
4. 人类主观评价
VE-Bench 采用24位受试者进行主观评分,符合ITU标准。受试者背景多样,经过线下培训,并根据文本与视频一致性、源视频与目标视频相关度以及编辑后视频质量进行综合评价(十分制)。结果显示,大多数模型得分在5分左右,少数模型可达近6分,部分模型低于4分。
5. 创新的评估方法VE-Bench QA
VE-Bench QA 从三个维度评估文本驱动的视频编辑:文本-视频一致性(基于改进的BLIP模型)、源视频-编辑后视频动态相关性(基于时空Transformer)和传统视觉质量(参考DOVER)。最终,各个分支的输出通过线性层回归得到最终分数。实验结果显示,VE-Bench QA 在多个数据集上都取得了SOTA的人类感知对齐结果。
6. 实验结果与结论
VE-Bench QA 的实验结果表明,它在预测结果与真值的相关性方面优于其他方法。此外,分析还显示,当前模型更擅长风格化指令,而删除指令和形状编辑的得分相对较低,这为未来模型的改进提供了方向。
VE-Bench 的开源为视频编辑质量评估提供了新的标准,有助于推动AI视频编辑技术的发展。其更全面、更贴近人类感知的评估方法,为研究者提供了更有效的工具。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破