北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25


最新升级的视频评价标准来了

北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25

原标题:北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25
文章来源:量子
内容字数:4987字

北京大学MMCAL团队开源首个视频编辑质量评估指标VE-Bench

北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench,并开源了相关代码与预训练权重。VE-Bench 关注AI视频编辑中一个核心问题:编辑前后结果与原始视频之间的联系。它能区分语义保持(例如“摘掉女孩的耳环”)和语义改变(例如“把女孩换成钢铁侠”)的编辑,并更好地与人类主观感受对齐。

1. 更丰富的数据库VE-Bench DB

VE-Bench DB 的构建涵盖四个方面:原始视频收集、提示词收集、视频编辑方法和主观标注。为了保证数据多样性,它收集了来自真实世界、CG渲染和AIGC的视频,包含DAVIS、Kinetics-700、Sintel、Spring等公开数据集的视频,以及Sora和可灵生成的AIGC视频和互联网补充视频。所有视频都调整为长边768像素,并裁剪为32帧。

2. 多样化的提示

VE-Bench 将提示词分为风格编辑、语义编辑和结构编辑三大类,并针对每个类别人工编写了相应的提示词,涵盖颜色、纹理、氛围、背景、对象添加/替换/移除、大小、姿态、动作等方面。

3. 多种视频编辑方法

VE-Bench 选取了8种视频编辑方法,涵盖了从SD1.4到SD2.1的不同版本,以及基于ControlNet、PnP等不同策略的编辑方法,确保评估的全面性。

4. 人类主观评价

VE-Bench 采用24位受试者进行主观评分,符合ITU标准。受试者背景多样,经过线下培训,并根据文本与视频一致性、源视频与目标视频相关度以及编辑后视频质量进行综合评价(十分制)。结果显示,大多数模型得分在5分左右,少数模型可达近6分,部分模型低于4分。

5. 创新的评估方法VE-Bench QA

VE-Bench QA 从三个维度评估文本驱动的视频编辑:文本-视频一致性(基于改进的BLIP模型)、源视频-编辑后视频动态相关性(基于时空Transformer)和传统视觉质量(参考DOVER)。最终,各个分支的输出通过线性层回归得到最终分数。实验结果显示,VE-Bench QA 在多个数据集上都取得了SOTA的人类感知对齐结果。

6. 实验结果与结论

VE-Bench QA 的实验结果表明,它在预测结果与真值的相关性方面优于其他方法。此外,分析还显示,当前模型更擅长风格化指令,而删除指令和形状编辑的得分相对较低,这为未来模型的改进提供了方向。

VE-Bench 的开源为视频编辑质量评估提供了新的标准,有助于推动AI视频编辑技术的发展。其更全面、更贴近人类感知的评估方法,为研究者提供了更有效的工具。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

暂无评论

暂无评论...