数据中心/云端

借助 NVIDIA AI Enterprise 推进生产级 AI 发展

 

尽管许多企业将利用人工智能的潜力作为优先事项,但开发和部署人工智能模型需要时间和精力。通常,必须克服将模型投入生产的挑战,这对于任务关键型业务运营尤为重要。根据IDC 研究,只有 18% 的受访企业能够在一个月内将 AI 模型投入生产。

本文探讨了降低 AI 部署速度的挑战,并介绍了使用一致、安全且可靠的平台加速将 AI 投入生产之旅的优势。

AI 软件堆栈的复杂性与日俱增

开源软件(OSS)在推动人工智能(AI)的采用方面发挥着至关重要的作用。根据2023 年 10 月的现状报告,与生成式 AI 相关的公共 GitHub 项目在 2023 年达到了 65000 个,同比增长了 249%。尽管开源社区推动了 AI 时代的发展,但在构建 AI 应用程序中使用的各种 OSS 使得维护可靠的企业级 AI 软件堆栈成为一项复杂且资源密集型的工作,类似于维护开源操作系统的难度。

例如,NVIDIA Triton 推理服务器用于标准化和扩展 AI 部署,依赖于众多软件依赖项。在图 1 中,绿色点表示 CUDA 库,白色点表示 OSS 包,它们之间的线表示依赖关系。任何单个更改(例如定期软件更新或安全补丁)都可能引入 API 更改,从而导致应用程序故障或停机。

A graphic representation of NVIDIA Triton Inference Server software dependencies. Green dots represent CUDA libraries, white dots represent OSS packages, and the lines in between represent dependencies.
图 1. NVIDIA Triton 推理服务器的软件依赖项

持续安全监控

随着安全漏洞的日益增多,维护 AI 软件堆栈变得更具挑战性。根据 Synopsys 发布的最新开源安全和风险分析报告,在过去五年中,针对大数据、AI、商业智能和机器学习的高风险攻击模式激增了 236%。

不断发现新的漏洞。例如,图 2 显示了 NVIDIA Triton 容器安全扫描结果的比较。在短短 3 周内,我们发现了一个关键漏洞。此外,高漏洞的数量从 4 个增加到 11 个。持续监控和快速响应以修复漏洞对于保持业务连续性至关重要。

Two screenshots showing that the vulnerabilities of NVIDIA Triton increased in 3 weeks.
图 2. NVIDIA Triton 的安全扫描结果比较

适用于生产级 AI 的 NVIDIA AI Enterprise

为了帮助应对这些挑战,NVIDIA推出了NVIDIA AI Enterprise,这是一个端到端的云原生软件平台,旨在加速数据科学流程,并简化生产级AI的开发和部署。NVIDIA AI Enterprise软件平台基于开源构建,并由NVIDIA精心策划、优化和支持,使开发者能够专注于构建和部署新的AI服务。

NVIDIA AI Enterprise 包括三个受支持的分支:生产分支、功能分支和长期支持分支。客户可以访问所有三个分支,并可以使用这三个分支的任意组合。

生产分支确保 API 的稳定性和定期安全更新,非常适合在需要稳定性时在生产环境中部署 AI。每 6 个月发布一次,生命周期为 9 个月。

特性分支包括树顶软件更新;非常适合需要更快速发展的最新开发环境的 AI 开发者。每月发布一次。

长期支持分支是高度监管行业的理想选择。每 2.5 年发布一次,生命周期长达 3 年。

API 稳定性和安全性

在每个 NVIDIA AI Enterprise 生产分支的 9 个月生命周期中, NVIDIA 会持续监控关键和高常见漏洞和暴露 (CVE),并每月发布安全补丁(图 3)。这样, NVIDIA AI Enterprise 中包含的 AI 框架、库、模型和工具可以更新以进行安全修复,同时消除破坏 API 的风险。

Graphic of NVIDIA AI Enterprise production branch lifecycle timeline.
图 3. NVIDIA AI Enterprise 生产分支生命周期时间表

图 4 将通过 NVIDIA AI Enterprise 生产分支版本提供的 Triton 版本与 Triton 的开源版本进行了比较。 NVIDIA AI Enterprise 生产分支提供的商业版本无严重漏洞,而开源版本有 9 个严重漏洞。

Two screenshots of vulnerability scanning results of two PyTorch images. One from NGC, and one from NVIDIA AI Enterprise.
图 4.Triton 安全扫描结果对比

通过透明实现安全性

除了提供每月 CVE 补丁和错误修复的产品分支外, NVIDIA AI Enterprise 客户还可以从 NVIDIA 接收安全建议和漏洞利用信息,包括漏洞利用交换 (VEX) 和软件材料清单 (SBOM)、漏洞上下文和补救指导。

VEX 文档是网络安全领域的新兴资源。与传统的 CVE 条目不同,VEX 文档通过编程方式提供了与漏洞相关的特定上下文信息。它能够指示漏洞是否与 AI 堆栈中的特定组件相关,或者是否可以利用。此外,VEX 文档还用于沟通漏洞扫描工具标记的误报。NVIDIA 的 VEX 文档遵循 CyclonDX 标准,这是一种机器可读的信息共享方式。

软件经过长期优化,可实现更好的性能和更低的 TCO

随着 NVIDIA 不断发展 AI 软件并优化性能,最新版本的 NVIDIA AI 软件与上一版本相比,在 NVIDIA H100 GPU 上实现了高达 54%的性能提升。图 5 展示了这一性能提升,这是通过参与 MLPerf Inference v3.0 基准测试获得的。这种性能的提升不仅提高了效率,还减少了数据中心或云环境中的能耗、空间占用和投资成本。

Chart of NVIDIA MLPerf Inference v3.0 compared to v2.1 submission results on NVIDIA H100.
图 5. NVIDIA 推理软件可在不升级硬件的情况下提供高达 54%的性能提升

企业级支持

每个 NVIDIA AI Enterprise 订阅都包含企业级支持,使组织能够从透明的开源信息中受益,并获得 NVIDIA 提供的全面软件堆栈支持保证。业务标准支持包括:

  • 每周 7 天、每天 24 小时通过客户门户和电话接受无限量技术支持案例
  • 在当地工作时间提供升级支持
  • NVIDIA 专家和工程师及时解决问题
  • 长达 3 年的长期支持

无论您是需要与 AI 专家联系、访问知识库资源,还是对性能问题进行故障排除, NVIDIA 都可以随时为您提供帮助,并提供保持 AI 稳定和安全所需的支持。

开始使用 NVIDIA AI Enterprise

NVIDIA AI Enterprise 减少了维护和保护生产级 AI 的复杂软件平台的成本和负担,使组织能够专注于构建 AI 并利用其颠覆性见解。

要体验企业平台,请免费申请 90 天评估许可证,这将允许您访问所有软件分支和企业支持。

已经是 NVIDIA AI Enterprise 用户?访问生产分支的最新版本

 

标签