内容创建/渲染

使用深度学习框架 fVDB 根据真实的 3D 数据构建空间智能

2024年 7月 29日

作者：Ken Museth, Robert Jensen, Jonathan Swartz, Francis Williams 和 Jiahui Huang

生成式物理 AI 模型可以在物理世界中理解和执行具有精细或粗运动技能的动作。了解和在物理世界的三维空间中导航需要空间智能。要在物理 AI 中实现空间智能，需要将现实世界转换为模型可以理解的 AI 就绪型虚拟表示，以便模型能够更好地理解和执行物理世界中的动作。

但是，根据真实数据构建空间智能需要能够处理大规模和高分辨率现实的基础设施。通常情况下，开发者必须拼凑不同的库来构建空间智能框架，这种方法通常会导致错误和低效，从而限制虚拟环境的范围。由于没有统一的框架，在多个数据结构之间复制数据会引入性能瓶颈、规模受限和不必要的工作。

为了提供强大、一致的框架，以处理现实规模的物理 AI，NVIDIA 建立了 fVDB，一个为稀疏、大规模和高性能空间智能而设计的深度学习框架。

对于从事涉及大规模 3D 数据（例如通常与现实世界的模拟或测量相关的数据）的深度学习应用程序的从业者和研究人员而言，fVDB 是一种颠覆性技术，此类稀疏大规模 3D 数据的示例包括点云、radiance fields、模拟物理量、signed distance functions 和 LiDAR。

fVDB 之所以如此命名，是因为它使用 OpenVDB 来高效表示功能，fVDB 将深度学习运算符与 NanoVDB 相结合。OpenVDB 是用于高效存储和模拟稀疏体积数据的行业标准，由 Academy Software Foundation 开源，由 NVIDIA 的 Ken Museth 主持的 Technical Steering Committee 管理。

视频 1.fVDB 为海量数据集和高分辨率提供 3D 深度学习基础设施

fVDB 是PyTorch的开源扩展，支持对大型 3D 数据执行一整套深度学习操作。这些深度学习操作的示例包括 attention 和 convolution，它们是transformers 和convolution neural networks (CNNs) 等著名机器学习架构的基础构建块。虽然它们传统上是在 1D 和 2D 中实现的 (例如，在PyTorch 和 TensorFlow 中)，但 fVDB 在应用于大型稀疏数据集时能够在 3D 中实现高效。

主要功能包括：

与现有 VDB 数据集兼容：fVDB 可以开箱即用地读取和写入现有 VDB 数据集。它可以与其他库和工具（例如 Warp for Pythonic 空间计算和 Kaolin Library for 3D 深度学习）进行互操作。将 fVDB 无缝应用到现有的 AI 工作流程中。
统一 API 用于不同 iable
- 构建和训练神经网络（卷积、注意力、池化等）
- 光线追踪和渲染（光线行军、Gaussian splatting、体积渲染）
- 在 GPU 上构建稀疏网格（从点、网格、坐标等）
- 采样和 splatting 稀疏体积
- 在 GPU 上高效处理非 uniform 批量数据
更快、更具可扩展性：fVDB 启用 4x 空间尺度，速度比之前的框架快 3.5 倍。
更多功能：fVDB 提供的运算符比之前的框架多 10 倍。它提供易于使用的 API，因此您不必将不同的库 patch 在一起。

fVDB 可为多种应用程序启用空间智能，包括：

从超过 250 million 个 3D 点重建神经形状
城市级数字孪生 with neural radiance fields (NeRFs)
大规模 3D 生成式 AI
物理超分辨率，其中神经网络用于添加高分辨率 3D 细节到更快的低分辨率模拟中。

fVDB 应用

fVDB 已与 NVIDIA Research、NVIDIA DRIVE 和 NVIDIA Omniverse 团队一起使用，作为一个框架，在空间智能研究和应用中启用先进的结果。

表面重建

神经内核表面重建 (Neural Kernel Surface Reconstruction, NKSR) 实现了一种新算法，用于从大型点云重建高保真表面。NKSR 是一种基于 fVDB 和神经核的大规模核求解器，能够在八个 GPUs 上在 2 分钟内重建跨越 350 million 个点的高保真表面。

视频 2. fVDB 用于实现 Neural Kernel Surface Reconstruction，这是一种从点云重建表面的 state-of-the-art 方法

生成式 AI

XCube 将扩散生成模型与稀疏体素层次结构相结合，能够在 30 秒内生成有效空间分辨率为 1024³ voxels 的场景。基于 fVDB 构建，通过逐步细分稀疏体素层次结构来实现高分辨率。生成的 voxels 可以包含纹理或语义等丰富的属性。

视频 3. 将一组连续图像输入 XCube 式网络，生成 3D fVDB 网格

NeRF

NeRF-XL 是一种原则性算法，用于在多个 GPUs 之间分配 NeRF。NeRF-XL 将大型场景分解成较小的块，分布在单独的 GPUs 上。它重新制定训练和渲染程序，以便多个 GPU 训练在数学上与经典的单 GPU 案例相当。fVDB 是在神经渲染过程中加速光线进军的基础框架，可在多台设备上并行运行。

视频 4. fVDB 帮助 NeRF-XL 高效地扩展跨越许多平方公里的巨大区域的多 GPU NeRF。

NVIDIA fVDB NIM 微服务

不久后，fVDB 功能将作为 NVIDIA NIM 微服务提供，使开发者能够将 fVDB 核心框架整合到 Universal Scene Description (USD) 工作流程中。在 NVIDIA Omniverse 中，fVDB NIM 微服务将生成基于 USD 的几何图形。

fVDB 网格生成 NIM：根据点云数据生成基于 OpenUSD 的网格，由 Omniverse Cloud APIs 渲染。
fVDB Physics Super-Res NIM：对一帧或一系列帧执行 AI 超分辨率，以生成基于 OpenUSD 的高分辨率物理模拟。
fVDB NeRF-XL NIM：使用 NVIDIA Omniverse Cloud APIs 在 OpenUSD 中生成大规模的 NeRF。

详细了解如何使用 USD NIM 微服务将生成式人工智能集成到 OpenUSD 工作流程中。

结束语

由 NVIDIA 开发的 fVDB 是一种深度学习框架，用于实现稀疏的大规模、高性能的空间智能，它基于 OpenVDB 构建了 NVIDIA 加速的 AI 运算符，以支持现实规模的数字孪生、神经辐射场、3D 生成式 AI 等。

申请抢先体验 fVDB，包括访问 fVDB PyTorch 扩展程序。

很快，您将能够通过 GitHub 上的 AcademySoftwareFoundation/openvdb 关注 OpenVDB 的开发。等待时，请查看合并 OpenVDB 的拉取请求。OpenVDB 预计很快会合并 fVDB 中。

与我们一起参加 SIGGRAPH 2024，参加 Introduction to fVDB： Hands-On With Large-Scale Spatial Intelligence 工作坊，该工作坊通过交互式教程介绍 fVDB 中的概念，以便开始使用。

如需了解详情，请参阅Academy Software Foundation 发布的 fVDB 公告。

关于作者

Ken Museth 是模拟技术的高级主管，并于 2020 年初加入 NVIDIA ，当时他发起了 NanoVDB 的开发。他以前在开发虚拟现实技术的时候，一直致力于虚拟现实的开发。他是 VDB 的创建者和 OpenVDB 的首席架构师，也是其技术指导委员会的主席。此外，肯在 SpaceX 公司工作了六年，对新的猛禽火箭发动机进行大规模流体动力学模拟。在 2017 年加入 Weta 之前，他在梦工厂动画和数字领域工作了 10 年，在此之前，他曾在加州理工学院和林科平大学担任研究员和全职教授。他拥有哥本哈根大学量子动力学博士学位，并获得电影艺术与科学学院颁发的技术成就奖。肯是 SIGGRAPH 2020 技术论文委员会成员。

查看 Ken Museth 所有文章

Robert Jensen 是 NVIDIA 的产品营销实习生，也是康涅狄格大学的计算机科学专业。他目前正致力于使开发人员能够采用 NVIDIA 光线追踪和 AI 软件。

查看 Robert Jensen 所有文章

Jonathan Swartz 是 NVIDIA 高保真物理研究团队的一名研究科学家，总部位于新西兰奥迪亚罗瓦的惠灵顿。在加入 NVIDIA 之前，Jonathan 在视觉效果和动画行业工作了 16 年，从事各种研究、工程和工匠工作，为 20 多部电影 (包括《阿凡达》电影、《霍比特人》三部曲、《复仇者联盟》电影和《吃肉的机会》Cloudy) 创建模拟特效、图像和技术。

查看 Jonathan Swartz 所有文章

Francis Williams 是 NVIDIA 的研究科学家，致力于计算机视觉、机器学习和计算机图形学的交叉研究。他的研究是理论与应用的结合，旨在以优雅的方式解决实际问题。特别是，他对 3D 形状表示非常感兴趣，这可以在“真实世界”的几何数据集上实现深度学习，这些数据集通常是有噪声的、未标记的，并且由非常大的输入组成。 2021 年，他在纽约大学完成了博士学位，曾在数学与数据小组和几何计算实验室工作。他还是几个开源项目的创建者和维护者，包括 NumpyEigen 、 Point Cloud Utils 和 FML 。

查看 Francis Williams 所有文章