代理式 AI/生成式 AI

使用 NVIDIA Nemotron RAG 和 Microsoft SQL Server 2025 在企业数据上构建可扩展的 AI

在 Microsoft Ignite 2025 大会上,随着 Microsoft SQL Server 2025 的发布,AI 就绪型企业数据库愿景成为现实,为开发者提供强大的新工具,例如内置向量搜索和调用外部 AI 模型的 SQL 原生 API。NVIDIA 与微软共同将 SQL Server 2025 与 NVIDIA Nemotron RAG 开放模型集合无缝连接,这使您能够在云端或本地环境中基于自己的数据构建高性能、安全的 AI 应用。

检索增强生成 (RAG) 是企业利用数据的最有效方法。RAG 使 AI 能够基于实时的、专有的数据进行工作,无需从零开始重新训练模型,从而避免了巨大的成本和复杂性。然而,RAG 的有效性依赖于计算密集型的步骤,其中之一是向量嵌入生成。这在传统的 CPU 基础设施上造成了巨大的性能瓶颈。

大规模部署的复杂性和对模型灵活性的需求加剧了这一挑战。企业需要一系列嵌入式模型来平衡不同任务的准确性、速度和成本。

本篇详细介绍了为解决这个问题的 NVIDIA 新参考架构。该架构建立在 SQL Server 2025 和 Llama Nemotron Embed 1B v2 上,后者属于 Nemotron RAG 系列。文中解释了这种集成如何允许您直接从 SQL Server 数据库调用 Nemotron RAG 模型,并将其转变为高性能的 AI 应用引擎。实施方案基于 Azure Cloud 和 Azure Local,涵盖了 SQL Server 在云端或本地的主要使用场景。

使用 Nemotron RAG 和 SQL Server 2025 解决企业 AI RAG 挑战

通过 Nemotron RAG 将 SQL Server 2025 连接到灵活、加速的 NVIDIA AI 引擎,解决了企业 AI RAG 的核心挑战:性能、部署以及灵活性和安全性。

提升 RAG 性能瓶颈

该架构通过使用 Llama Nemotron Embed 1B v2,将嵌入生成任务从 CPU 卸载到 NVIDIA GPU,解决了 RAG 核心的性能瓶颈。Llama Nemotron Embed 1B v2 是一款先进的开放模型,能够生成准确度高的专为检索任务优化的嵌入。它支持多语言及跨语言的文本问答检索,具备长上下文支持能力并优化数据存储。

Llama Nemotron Embed 1B v2 属于 Nemotron RAG 系列,它包含提取、嵌入、重新排序模型,并通过 Nemotron RAG 数据集和脚本进行微调,以实现最佳准确性。

在数据库方面,SQL Server 2025 在本机矢量距离函数的支持下,通过矢量搜索提供无缝、高性能的数据检索。当嵌入式模型本地托管时,能够消除网络开销、降低延迟,这两大因素显著提升了整体性能。

将 AI 模型部署为简易的容器化端点

部署环节是 NVIDIA NIM 的用武之地。NIM 是预构建的、生产就绪的容器,旨在简化最新优化的 AI 模型 (如 NVIDIA Nemotron RAG) 在任何 NVIDIA 加速基础设施上的部署,无论是在云端还是本地。借助 NIM,您可以将 AI 模型部署为简易的容器化端点,无需管理复杂的库或环境。

此外,通过使用由 NIM 支持的本地托管模型,可以有效满足数据驻留与合规性要求。易于使用是另一个关键优势。NIM 的预构建性质与原生 SQL REST API 相结合,显着缩短了学习曲线,使企业能够更轻松地让 AI 贴近其客户已有的数据。

保持安全性和灵活性

该架构提供了一系列先进的 Nemotron RAG 模型,同时确保专有数据在 SQL Server 数据库中的安全。NIM 专为企业级安全性而设计,并由 NVIDIA 企业支持提供保障。NIM 和 SQL Server 之间的所有通信均通过端到端 HTTPS 加密得到进一步保护。

Nemotron RAG 和 Microsoft SQL Server 2025 参考架构

Nemotron RAG 和 SQL Server 2025 参考架构详细描述了使用 Llama Nemotron Embed 1B v2 嵌入模型(作为 NIM 提供)以实现解决方案的过程。该方案支持直接基于 Azure Cloud 或 Azure Local 部署的 SQL Server 实现企业级、安全、GPU 加速的 RAG 工作流。

有关此解决方案的完整代码、部署脚本和详细操作指南,请参阅 NVIDIA NIM with SQL Server 2025 AI on Azure Cloud and Azure Local

核心架构组件

图 1 展示了三个核心架构组件和流程基础,下面也将对其进行详解。

 1. 该架构由三个协同工作的核心组件组成

 SQL Server 2025:AI 就绪数据库

该解决方案基于 SQL Server 2025 引入的两项变革性功能,充当数据库内 AI 的引擎:

  • 原生矢量数据类型:此功能使您能够直接将矢量嵌入安全地与结构化数据存储在一起,免除了对单独矢量数据库的需求,简化了架构,减少了数据移动,并支持混合搜索,例如查找既是“跑鞋”(矢量搜索)又是“库存中”(结构化过滤器)的产品。
  • 矢量距离搜索:您现在可以使用内置函数直接在 SQL Server 2025 中执行相似性搜索。您可以根据嵌入空间的紧密程度对结果进行排名,支持语义搜索、推荐系统和个性化等用例,所有这些都无需离开数据库。
  • 创建外部模型:在 SQL Server 2025 中将外部 AI 模型(例如 NIM)注册和管理为一流实体。这提供了一种无缝的方式来编排推理工作流,同时保持集中化治理和安全性。
  • 生成嵌入:使用 AI_GENERATE_EMBEDDINGS 函数直接从 T-SQL 创建文本或其他数据的嵌入。该函数在底层利用外部 REST API 调用,无需复杂的集成步骤即可实现实时嵌入生成。

NVIDIA NIM:加速的 AI 引擎

Nemotron RAG 系列开放模型,包括本参考架构中使用的 Llama Nemotron Embed 1B v2 模型,作为生产就绪型 NVIDIA NIM 提供,可在标准 Docker 容器中运行。

这种方法简化了部署,并确保云和本地 Windows 或 Linux 环境与 NVIDIA GPU 的兼容性。这些模型可以部署在 Azure Container App 上或使用 Azure Local 进行本地部署。这种容器化交付支持自动和手动扩缩容的策略,并为 SQL Server 2025 提供了理想的“本地到云端”的灵活性。

  • 云规模:您可以使用无服务器 NVIDIA GPU 将 NIM 部署到 ACA。这种方法屏蔽了所有的基础设施管理工作。您将获得支持自动缩容至零、按秒计费的按需 GPU 加速推理服务,在优化成本的同时简化运维。
  • 本地部署:为了实现更强的数据主权和低延迟,您可以使用带有 NVIDIA GPU 的 Azure Local 在本地运行相同的 NIM 容器。Azure Local 将 Azure 的管理平面扩展到您自己的硬件,能够直接在本地数据上运行 AI,同时满足严格的合规性或性能需求。

SQL Server  NIM 之间的链接

SQL Server 和 NIM 之间的通信桥梁简单而稳固,基于标准、安全的 Web 协议构建。

  • 兼容 OpenAI 的 API:NVIDIA NIM 提供兼容 OpenAI 的 API 端点。SQL Server 2025 可以使用其原生函数来调用 NIM 服务,就像调用 OpenAI 服务一样,从而确保无缝、开箱即用的集成。
  • 标准 POST 请求:SQL Server 2025 通过标准的 HTTPS POST 请求来检索诸如嵌入等结果。
  • 安全且灵活的通信:该设计使用 TLS 证书进行端到端加密,建立双向信任并确保所有响应对于云和本地部署都是安全、高性能且符合标准的。这相比仅限远程模型具有显著优势,因为您保有完全控制,并且专有数据永远不会离开安全环境。

此参考架构采用先进的 Nemotron RAG 模型,它也可以进行扩展,使 SQL Server 2025 能够调用任何 NIM 以支持广泛的 AI 应用程序,例如文本摘要、内容分类或预测分析,所有这些都可以直接在 SQL Server 2025 中的数据上执行。

两种部署方式

本文介绍此解决方案的两种主要部署模式:本地部署 (使用 Azure Local) 和云部署 (使用 Azure Container App)。这两种模式都基于相同的核心机制:SQL Server 2025 使用标准的 OpenAI 兼容协议调用 NVIDIA NIM 端点。

使用 Azure Local 进行本地部署

本地部署方案可提供更强的灵活性,支持在搭载 NVIDIA GPU 的服务器上运行多种 Windows 和 Linux 的系统组合,例如:

  • 同时运行 SQL Server 和 NVIDIA NIM 的 Windows/Ubuntu Server 或 Windows/Ubuntu 本地虚拟机
  • 运行 SQL Server 的 Windows 系统和运行 NVIDIA NIM 的 Ubuntu 系统,反之亦可

如进行部署,使用微软新推出的 Azure Local 方案,可将 Azure Cloud 平台直接扩展到本地环境。有关建立安全通信的完整安装说明(包括 NIM 部署的详细信息),请访问 GitHub 上的 NVIDIA/GenerativeAIExamples。注意此解决方案已通过 SQL Server 2025 (RC 17.0.950.3) 验证。

云部署

云部署方案采用托管在 Azure Container App (ACA) 上的 NVIDIA Llama Nemotron Embedding NIM。ACA 是微软 Azure 提供的全托管无服务器容器平台,不仅全面支持该架构,还进一步放大了架构优势。如需了解更多信息,请参阅 NVIDIA/GenerativeAIExamples GitHub 存储库中的 NVIDIA NIM with Microsoft SQL Server 2025 AI on Azure Cloud and Azure Local

这种无服务器的方式为部署基于 SQL Server 2025 数据的 AI 应用程序提供了若干关键优势。

为加速 NIM 副本启动,建议使用由 Azure File Share 或临时存储支持的 ACA 卷,以保留本地 NIM 缓存。副本数量通过 ACA HTTP 扩展功能自动管理,可支持缩容至零。

ACA 应用程序能够并行托管多个版本和类型的 NIM,每个 NIM 都可通过在 SQL Server 中配置的独立 URL 进行访问。

解决方案演示

要获取运行完整端到端工作流的全套说明,可查阅 SQL Server 2025 AI functionality with NVIDIA Retrieval QA using E5 Embedding v5

该演示 SQL 脚本将引导您完成以下步骤:

  • 创建 AdventureWorks 示例数据库
  • 创建 ProductDescriptionEmbeddings 演示表
  • 执行演示脚本,通过 NVIDIA NIM 集成填充嵌入
  • 使用 Select_Embeddings.sql 验证并可视化存储的嵌入

此工作流演示了 SQL Server 2025 AI 的新功能,其中运用了内置的 T-SQL AI 功能,包括:VECTOR_DISTANCAI_GENERATE_EMBEDDINGS 和 CREATE EXTERNAL MODEL,这些功能共同构成了 SQL Server 2025 中新 AI 集成的基础。

开始使用 SQL Serve 2025 和 NVIDIA Nemotron RAG

Microsoft SQL Server 2025 与以生产级 NVIDIA NIM 形式交付的 NVIDIA Nemotron RAG 相集成,为构建高性能 AI 应用提供了一条无缝的“本地到云端”实现路径。通过结合 SQL Server 2025 内置的 AI 功能与 NVIDIA GPU 优化推理堆栈,能够有效解决 RAG 核心性能瓶颈,将 AI 安全、高效地引入到数据中,并且无需额外管理复杂的数据管道。

此联合参考架构演示了如何在 SQL Server 2025 中构建 RAG 应用,使其能够直接生成嵌入、执行语义搜索并调用推理服务。这种方法可以在保留完整的数据主权的情况下,灵活地在数据所在的任何位置(如 Azure Cloud 或使用 Azure Local 进行本地部署)部署 NVIDIA Nemotron 等先进模型。

准备好开始了吗?通过 NVIDIA/GenerativeAIExamples GitHub 存储库中的 NVIDIA NIM with Microsoft SQL Server 2025 AI on Azure Cloud and Azure Local 查阅所有部署脚本、代码示例和云端及本地部署的详细操作步骤。

标签