VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试
VideoPhy是由UCLA和谷歌研究院联合开发的首个专注于评估视频生成模型物理常识能力的基准测试,旨在测量生成的视频是否遵循现实世界的物理规律。该基准包含688个描述物理交互的字幕,用于从多种文本到视频模型的生成过程,并进行人类与自动评估。研究显示,即使是最先进的模型,其生成的视频也只有39.6%能够同时符合文本提示和物理法则。VideoPhy强调了视频生成模型在模拟物理现象方面的限制,同时推出了自动评估工具VideoCon-Physics,以支持未来模型的可靠评估。
VideoPhy是什么
VideoPhy是UCLA与谷歌研究院合作推出的创新基准测试,专门评估视频生成模型在物理常识方面的表现。通过688个经过严格审核的字幕,VideoPhy能够测试不同文本到视频模型生成的视频是否符合物理规律。该基准的推出意在揭示视频生成模型在物理模拟上的不足,并通过自动评估工具VideoCon-Physics,为未来的模型评估提供支持。
主要功能
- 物理常识评估: 测试文本到视频生成模型是否生成符合物理常识的视频内容。
- 标准化测试集: 提供688个经过人类验证的描述性字幕,涵盖固体-固体、固体-流体及流体-流体之间的物理互动,用于生成视频并进行评估。
- 综合评估: 结合人类评估与自动评估工具VideoCon-Physics,评估视频的语义一致性和物理常识。
- 模型性能比较: 比较不同模型在VideoPhy数据集上的表现,以确定哪些模型在遵循物理法则方面表现更佳。
- 推动模型改进: 揭示现有模型在物理模拟上的不足,促进研究者开发更符合物理常识的视频生成模型。
技术原理
- 数据集构建: VideoPhy的数据集通过三阶段流程构建,包括使用大型语言模型生成字幕候选项、人工验证字幕质量及标注视频生成难度。
- 视频生成: 利用不同的文本到视频生成模型,根据VideoPhy数据集中的字幕生成视频。
- 人类评估: 基于亚马逊机械土耳其(Amazon Mechanical Turk)的人工评估者对生成的视频进行语义一致性和物理常识评分。
- 自动评估模型: 发布VideoCon-Physics,基于VIDEOCON视频-语言模型的自动评估工具,微调后用于评估生成视频的语义一致性和物理常识。
- 性能指标: 采用二元反馈(0或1)来评估视频的语义一致性(Semantic Adherence, SA)和物理常识(Physical Commonsense, PC)。
项目地址
- 项目官网:videophy.github.io
- GitHub仓库:https://github.com/Hritikbansal/videophy
- HuggingFace模型库:
- arXiv技术论文:https://arxiv.org/pdf/2406.03520
应用场景
- 视频生成模型开发与测试: 用于开发和测试新的文本到视频生成模型,确保生成符合物理常识的视频内容。
- 计算机视觉研究: 在计算机视觉领域,辅助研究和改进视频理解算法,尤其是在涉及物理互动和动态场景理解方面。
- 教育与培训: 可作为教育工具,帮助学生理解物理现象及视频内容生成过程。
- 娱乐产业: 在电影、游戏和虚拟现实制作中,生成更加真实且符合物理规律的动态场景。
- 自动化内容生成: 为新闻、体育及其他媒体内容的自动化生成提供技术支持,提高内容质量与真实性。
常见问题
- VideoPhy的测试集是如何构建的? 测试集基于大型语言模型生成的字幕,通过人类验证确保质量,并标注生成视频的难度。
- 如何评估生成的视频是否符合物理常识? 评估通过人工评估者和自动评估工具VideoCon-Physics结合进行,确保评估的全面性和准确性。
- VideoPhy的成果可以应用于哪些领域? 主要应用于视频生成模型开发、计算机视觉研究、教育培训、娱乐产业及自动化内容生成等多个领域。
暂无评论...