VE-Bench


VE-Bench – 北京大学开源首个针对视频编辑质量评估的新指标

VE-Bench是什么

VE-Bench 是由北京大学的研究团队 MMCAL 最新推出的首个专门针对视频编辑质量评估的指标。其设计目标是与人类的感知能力高度契合,从而更精确地评估视频编辑效果。VE-Bench QA 在评估编辑视频时,不仅关注传统的视频质量评估方法所强调的审美和失真等视觉质量指标,还特别注重文本与视频之间的对齐,以及源视频与编辑后视频之间的相关性建模

VE-Bench 包含两个主要组成部分:VE-Bench DB 和 VE-Bench QA。VE-Bench DB 是一个视频质量评估数据库,包含丰富的源视频、编辑指令、不同视频编辑模型的编辑结果,以及24名来自不同背景参与者的主观评分样本,总计达到28,080个评分样本。VE-Bench QA 是一个量化工具,旨在为文本驱动的视频编辑任务提供与人类感知相一致的评估标准。VE-Bench 的代码数据可在 GitHub 问。

VE-Bench

VE-Bench的主要功能

  • 视频质量评估模型(VE-Bench QA):该模型旨在为编辑后的视频提供与人类感知一致的评估标准,涵盖传统视频质量评估方法关注的审美、失真等视觉指标,同时重点关注文本与视频的对齐及源视频与编辑后视频之间的相关性。
  • 视频质量评估数据库(VE-Bench DB):VE-Bench DB 是一个专为视频编辑构建的质量评估数据库,包含丰富的源视频、编辑指令、不同视频编辑模型的输出,以及24名不同背景参与者的主观评分样本,总计28,080个评分样本。
  • 文本-视频一致性评估:VE-Bench QA 采用 BLIP 进行视频与文本之间的相关性建模,通过在 BLIP 的视觉分支上添加 Temporal Adapter,将其扩展到三维,并结合文本分支的结果进行交叉注意力输出。
  • 源视频-编辑后视频动态相关性评估:VE-Bench QA 借助时空Transformer将源视频和编辑后视频投影到高维空间,然后通过注意力机制评估二者之间的相关性,并最终通过回归分析得出结果。
  • 传统视觉质量评估:VE-Bench QA 参考了自然场景视频质量评价的优秀研究成果 DOVER,通过在美学和失真方面的预训练网络输出结果。
  • 维度评估:VE-Bench QA 从文本-视频一致性、源视频-编辑后视频动态相关性和传统视觉质量三个维度对文本驱动的视频编辑进行全面评估。

VE-Bench的技术原理

  • 线性层回归:各个分支的输出通过线性层回归,最终生成综合评分。
  • 深度学习算法:VE-Bench 运用了先进的深度学习算法,通过对大量真实视频样本的学习,建立了能够模拟人类视觉和听觉系统的模型。
  • 多模态学习框架:VE-Bench 能够同时处理视频中的图像、音频和文本信息,通过大量真实世界视频样本的训练,学会分析视频的技术参数,捕捉那些难以量化的艺术美感和情感表达。

VE-Bench的项目地址

VE-Bench的应用场景

  • 电影制作:VE-Bench 可以在电影后期制作中,辅助导演和剪辑师分析每个镜头的色彩、光影效果及的符合度,确保影片情感氛围的准确传达。
  • 短视频平台内容优化:短视频创作者可以利用 VE-Bench 实时监测视频的视觉效果、音频质量和叙事结构,依据系统建议进行优化,提升视频的整体观感和互动率。
  • 广告行业精准营销:VE-Bench 能够分析视频内容,帮助广告行业进行精准营销,确保广告视频与目标受众的情感和视觉预期相匹配。
  • 视频编辑质量评估:VE-Bench 关注视频编辑前后结果与原始视频之间的关系,例如在“摘掉女孩的耳环”的任务中,需要保持人物ID,源视频与编辑结果之间应具备较强的语义相关性。
版权声明:atcat 发表于 2024-12-28 18:00:06。
转载请注明:VE-Bench | 86AIGC导航

暂无评论

暂无评论...