网络/通讯

借助 NVIDIA Quantum InfiniBand 实现一键式多租户安全

NVIDIA Quantum InfiniBand 现可在 Unified Fabric Manager (UFM) 中提供基于意图的安全配置文件,只需单击一下即可实现多租户网络安全性。

NVIDIA Quantum InfiniBand 支持三种配置文件:通用、裸金属云和安全裸金属云。网络管理员现在可以自动配置:

  • 分区密钥 (PKey) 隔离
  • 管理数据图 (MAD) 密钥保护
  • 基于全局唯一标识符 (GUID) 的访问控制
  • 持续验证

这将部署时间从数小时或数天缩短到数分钟,使云提供商能够在数万个 GPU 上运行硬件强制租户隔离,而无需手动配置子网管理器 (SM) 。

随着 AI、HPC 和超大规模云计算的指数级增长,网络结构的完整性比以往任何时候都更加重要,但许多网络将安全性视为事后考虑。

InfiniBand 采用了相反的方法:安全扩展到网络的每一层。虽然 InfiniBand 以超低延迟、高吞吐量和大规模可扩展性而闻名,但其 多层安全架构 同样可靠。

本文将介绍基于意图的配置文件如何简化部署。

传统网络为何缺乏多租户安全性

InfiniBand 是一种软件定义的集中管理结构。在传统网络中,端点通常独立运行,自行制定路由、资源和策略决策。缺乏集中式监督可能会导致配置错误、策略不一致和安全漏洞。NVIDIA Quantum InfiniBand 通过在 UFM 中进行集中控制来避免这种情况,UFM 负责执行全局策略、优化路线、监控运行状况并主动保护网络。

尽管 NVIDIA 提供了可靠的解决方案,如完整性机制和硬件强制租户隔离,但由于 Quantum InfiniBand 并未像以太网那样得到广泛理解,因此此类功能仍未得到充分利用。

目前,人们需弥合 InfiniBand 的高级安全功能与用户在没有深厚领域专业知识的情况下轻松实现这些功能的能力之间的差距。在使用数千台交换机连接数万个 GPU 的代理式 AI 环境中,即使租户隔离中的微小配置错误也可能会危及敏感的专有数据或中断大规模分布式工作负载。安全功能必须具有可扩展性且易于部署,以便客户更轻松地开展工作,并提高集群的安全性。

为解决这些问题,NVIDIA 推出了用于启用 InfiniBand 安全功能的一键式解决方案。

NVIDIA Quantum InfiniBand 的基于意图的安全配置文件是什么?

NVIDIA 正在推出基于意图的安全配置文件,以简化和标准化不同部署模型的安全配置。用户无需手动配置多个参数,而是可以选择预定义的配置文件,UFM 将自动编排所有底层安全设置。

以下是基于意图的配置文件的主要优势:

  • 错误更少:配置文件按照 NVIDIA 工程人员的意图实施和部署安全功能,防止误解或文档丢失。
  • 缩短配置时间: 从手动、多步骤 UFM/ SM 配置过渡到基于意图的预配置配置文件,可以将学习、调整配置以及部署和测试时间从数小时或数天缩短到几分钟。
  • 零接触扩展:可以将数百个节点添加到多租户环境中,而不会线性增加安全管理开销。
  • 无安全停机时间:添加新的安全功能后,系统会将其添加到相关配置文件配置中,从而消除发布新功能与在部署中启用新功能之间的过渡阶段。

通用配置文件专为具有基本开箱即用配置的单租户环境而设计。

裸金属云专为多租户云环境量身打造,而安全裸金属云是适用于高度安全的多租户环境的强化配置文件。

以下部分将详细介绍裸金属云和安全裸金属云配置文件类型。

裸金属云配置文件

裸金属云配置文件支持基于 PKey 隔离,通过 InfiniBand 管理网络在云环境中提供租户分离。

与以太网 VLAN 类似,使用 PKey 的 InfiniBand 分区可定义哪些节点或端口可以访问网络资源,使用硬件机制防止一个分区中的端口访问另一个分区。

此机制特别适合多租户部署的原因是,分区分配完全由 SM 控制:节点无法确定自己的分区,应用程序也无法指定要使用的分区;它们只能引用已分配至其端口的分区。

端口属性存储在硬件中,只能通过 SM 和 InfiniBand 芯片独有的管理密钥 (MKey) 进行访问。该架构为云服务提供商和数据中心运营商提供了强大的隔离保证。租户共享相同的物理 InfiniBand 结构,在硬件级别以加密和逻辑方式进行分离,无需依赖主机侧软件执行,而拥有提升权限的租户可以规避。

安全裸金属云配置文件

安全裸金属云配置文件建立在 PKey 隔离之上,可实现安全多租户云环境所需的一整套安全功能:

  • 使用随机种子提供完整的 MAD 密钥保护,包括:MKEY、VSKEY、PMKEY、CCKEY、C 类密钥 (N2N) 、AM 和工作密钥、SMKEY 和 SAKEY
  • 使用 allowed_guid_list 功能进行基于 GUID 的访问控制
  • 通过 service_key 进行服务级别身份验证 (例如,用于 AM 服务)
  • 应用于所有命令的增强型 SA 信任模型
  • MAD 限流(MAD 限速器),用于防止滥用和拥塞
    • DoS/ DDoS Protection:自动识别和限制来自单个节点的过高数据包速率,以保护管理节点。
    • 基于源的速率限制:通过根据每个节点的源 LID 地址监控和控制流量来运行。

这种方法可降低复杂性,更大限度地减少配置错误,并确保在部署之间实现一致的安全执行,从而使用户能够将基础设施行为与其预期运营模型保持一致。

如何使用 CSV 验证 NVIDIA Quantum InfiniBand 安全状态

NVIDIA Quantum InfiniBand 部署支持的另一项功能是持续安全验证 (CSV) 。这是一种新的 UFM 诊断功能,可执行静态分析和基于日志的审核。它为用户提供“安全运行状况评分”,以及针对任何检测到的漏洞的特定自动补救措施。

结合基于意图的配置文件,这种主动诊断工具对于确保高效、安全的网络运营至关重要。

在下图 1 中,屏幕截图显示了生成安全报告的流程。

在“System Health” (系统运行状况) 选项卡中,用户从顶部菜单中选择“Security” (安全性) 。

接下来,用户选择所需的详细程度 (错误、错误和警告以及信息) ,以及测试 PKey 设置的选项,然后运行报告。请参见下图 2:

报告完成后,结果将根据选定的详细程度显示错误、警告和信息消息列表。请参见下图 3:

深入了解

如需详细了解将复杂的网络安全功能转化为可行部署的指南和最佳实践,请阅读 NVIDIA Quantum InfiniBand 安全白皮书

标签