Meta与牛津大学合作推出PartGen:实现零部件级3D模型生成
当前AI生成的3D模型质量已很高,但通常缺乏结构信息,难以进行零部件操作。Meta与牛津大学的研究人员为此推出了全新的多视图扩散模型PartGen,它能够生成由可分离子结构组成的3D模型,满足专业应用和创意工作流的需求。
1. PartGen的核心功能与工作流程
PartGen能够以文本、图像或非结构化3D对象为输入,生成具有可分离子结构的3D模型。它采用两阶段方案:第一阶段,多视图生成器生成3D对象的多个视图,并提取视图一致的部分分割;第二阶段,另一个多视图扩散模型单独处理每个部分,填充遮挡信息,并最终通过3D重建网络重建完整的3D零件。PartGen在生成过程中考虑了整个对象的上下文,确保各部分紧密集成,并能有效重建被遮挡的部分。
2. 解决的关键问题与技术方法
PartGen解决了两个关键问题:自动将3D对象分割成多个部分,以及即使在部分遮挡或不可见的情况下,也能提取高质量、完整的3D零部件。 针对分割问题,PartGen将零件分割转换为随机多视图一致性着色问题,利用微调的多视图图像生成器生成颜色编码的分割图,从大量数据中学习如何将对象分解为多个部分。对于重建问题,PartGen微调另一个多视图生成器来补全零件视图,同时考虑整个对象的上下文,即使零件在原始视图中不可见也能可靠重建。最后,使用3D重建网络生成最终的零件模型。
3. 数据集与训练过程
PartGen的训练数据集包含140,000个由艺术家生成的3D资产,经过筛选后,最终用于训练的包含45,000个对象(210,000个零部件)。训练过程中,对多视图生成器、零件分割和补全网络分别进行数据预处理和模型微调。
4. 下游应用与优势
PartGen可在部件感知文本到3D生成、部件感知图像到3D生成以及真实世界3D对象分解等场景中应用。它能够有效生成具有不同部件的3D对象,即使在严重重叠的情况下也能良好运行。此外,生成的零件可以被单独编辑、替换或删除,这对于3D建模、游戏开发、机器人和具身人工智能等领域具有重要意义。PartGen将现有的3D生成方法从非结构化升级为零部件组合的方法,极大地提升了3D模型的灵活性和可编辑性。
5. 总结
PartGen代表了3D模型生成领域的一大进步,它实现了零部件级3D模型的生成,为专业应用和创意工作流提供了强大的工具。其基于多视图扩散模型的两阶段方案,以及对遮挡处理和上下文信息的有效利用,使其能够生成高质量、可编辑的3D模型,具有广泛的应用前景。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。