LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术
LeviTor是什么
LeviTor是由学、蚂蚁集团和浙江大学等机构联合开发的一项前沿图像到视频合成技术。该技术通过结合深度信息和K-means聚类算法,能够控制视频中3D物体的轨迹,而无需进行显式的3D轨迹跟踪。通过高质量的视频对象分割数据集进行训练,LeviTor能够有效捕捉复杂场景中物体的和交互。其用户友好的推理流程简化了3D轨迹的输入,极大地提升了视频生成技术的先进性和易用性。LeviTor的推出为3D物体轨迹的控制开辟了新的可能性,扩大了创意应用的范围,适合更广泛的用户群体。
LeviTor的主要功能
- 精准控制物体:在从静态图像生成动态视频时,能够精确操控物体的轨迹。
- 激发创意应用:基于3D轨迹的控制,拓展了视频合成的创意应用潜力。
- 简化用户输入流程:用户可以通过简单的2D图像绘制和深度调整轻松输入3D轨迹,降低了技术门槛。
- 自动提取深度信息和物体掩码:系统能够自动从图像中提取深度信息和物体掩码,减少用户操作的复杂性。
- 交互式轨迹绘制:用户可交互式地绘制物体轨迹,系统将这些输入转换为3D路径。
LeviTor的技术原理
- K-means聚类:对视频对象掩码的像素进行K-means聚类,提取出一组代表性的控制点。
- 深度信息融合:通过深度估计网络DepthAnythingV2预测相对深度图,并在每个控制点采样深度,增强控制点的深度信息。
- 控制信号构建:结合2D坐标与估计的深度值,构建控制轨迹,这些轨迹作为视频扩散模型的控制信号。
- 视频扩散模型:将控制信号输入视频扩散模型中,生成与3D轨迹对齐的视频内容。
- 用户友好的推理流程:设计了用户友好的交互系统,用户可通过简单的点击和深度值调整输入3D轨迹。
LeviTor的项目地址
- 项目官网:ppetrichor.github.io/levitor
- GitHub仓库:https://github.com/qiuyu96/LeviTor
- HuggingFace模型库:https://huggingface.co/hlwang06/LeviTor
- arXiv技术论文:https://arxiv.org/pdf/2412.15214
LeviTor的应用场景
暂无评论...