北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

最新升级的视频评价标准来了

原标题：北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25
文章来源：量子位
内容字数：4987字

北京大学MMCAL团队开源首个视频编辑质量评估指标VE-Bench

北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench，并开源了相关代码与预训练权重。VE-Bench 关注AI视频编辑中一个核心问题：编辑前后结果与原始视频之间的联系。它能区分语义保持（例如“摘掉女孩的耳环”）和语义改变（例如“把女孩换成钢铁侠”）的编辑，并更好地与人类主观感受对齐。

1. 更丰富的数据库VE-Bench DB

VE-Bench DB 的构建涵盖四个方面：原始视频收集、提示词收集、视频编辑方法和主观标注。为了保证数据多样性，它收集了来自真实世界、CG渲染和AIGC的视频，包含DAVIS、Kinetics-700、Sintel、Spring等公开数据集的视频，以及Sora和可灵生成的AIGC视频和互联网补充视频。所有视频都调整为长边768像素，并裁剪为32帧。

2. 多样化的提示词

VE-Bench 将提示词分为风格编辑、语义编辑和结构编辑三大类，并针对每个类别人工编写了相应的提示词，涵盖颜色、纹理、氛围、背景、对象添加/替换/移除、大小、姿态、动作等方面。

3. 多种视频编辑方法

VE-Bench 选取了8种视频编辑方法，涵盖了从SD1.4到SD2.1的不同版本，以及基于ControlNet、PnP等不同策略的编辑方法，确保评估的全面性。

4. 人类主观评价

VE-Bench 采用24位受试者进行主观评分，符合ITU标准。受试者背景多样，经过线下培训，并根据文本与视频一致性、源视频与目标视频相关度以及编辑后视频质量进行综合评价（十分制）。结果显示，大多数模型得分在5分左右，少数模型可达近6分，部分模型低于4分。

5. 创新的评估方法VE-Bench QA

VE-Bench QA 从三个维度评估文本驱动的视频编辑：文本-视频一致性（基于改进的BLIP模型）、源视频-编辑后视频动态相关性（基于时空Transformer）和传统视觉质量（参考DOVER）。最终，各个分支的输出通过线性层回归得到最终分数。实验结果显示，VE-Bench QA 在多个数据集上都取得了SOTA的人类感知对齐结果。

6. 实验结果与结论

VE-Bench QA 的实验结果表明，它在预测结果与真值的相关性方面优于其他方法。此外，分析还显示，当前模型更擅长风格化指令，而删除指令和形状编辑的得分相对较低，这为未来模型的改进提供了方向。

VE-Bench 的开源为视频编辑质量评估提供了新的标准，有助于推动AI视频编辑技术的发展。其更全面、更贴近人类感知的评估方法，为研究者提供了更有效的工具。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

AIGC动态 AI视频编辑指标人类感知一致性客观视频质量评价视频感知质量视频编辑质量评估

版权声明：atcat 发表于 2024-12-28 18:02:36。
转载请注明：北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25 | 86AIGC导航

暂无评论

暂无评论...