计算机视觉/视频分析

使用 NVIDIA XR AI 为 AR 眼镜和 XR 设备构建 AI 智能体

为 AR 眼镜和可穿戴设备打造的开发者面临着基础设施缺口。硬件已准备就绪,但要打造 AI 体验,需要集成实时摄像头和麦克风流、多模态 AI 模型、企业数据、工具使用、部署基础设施和特定于设备的运行时。

NVIDIA XR AI旨在通过提供可重复使用的基础来应对这一挑战,从而将扩展现实 (XR) 设备连接到在云、数据中心、工作站或边缘运行的 GPU 加速 AI 服务。

现已在测试版中公开提供,开发者可以访问一个 开源 库,为 AI 眼镜、AR 眼镜和 XR 头显设备构建智能体。这些智能 XR 智能体可以查看用户看到的内容,理解表达或输入的意图,调用企业工具,并在同一 XR 会话中做出响应。他们可以帮助一线团队成员找到正确的信息、指导工作人员完成程序、验证结果并捕获证据。

无论是在现场服务、远程协助、工业运营、医疗健康、培训还是其他需要手动操作的环境中,XR AI 都能为人们的工作场所带来智能。

NVIDIA 在医疗健康和制造业领域的合作伙伴提供了如何应用这种模式的实用示例。斯坦福大学医学院 Cong 实验室和普林斯顿大学 Wang 实验室的研究人员探索了用于干细胞疗法研究的 XR 和 AI 工作流,帮助研究人员访问上下文信息并与实验室系统进行交互,同时继续专注于复杂的程序。

在制造业领域,西门子正在研究 NVIDIA XR AI 和 NVIDIA DGX Spark 如何帮助工厂工程师查找维护信息、排除问题、验证工作并捕获车间中发生的情况。

本文将介绍为您的用例构建智能 XR 智能体的过程。它还探讨了 XR AI 如何结合使用 NVIDIA Cosmos 的视觉接地、与 NVIDIA Nemotron 模型的语音优先交互、使用模型上下文协议 (MCP) 的企业连接,以及使用 NVIDIA NeMo Agent Toolkit 等框架进行灵活的智能体编排。

智能 XR 智能体的组件和架构

智能 XR 智能体从用户 XR 设备的实时上下文开始。摄像头帧、麦克风音频和数据消息会流入 XR Media Hub,在那里可以路由到了解用户环境和意图的模型、工具和智能体。NVIDIA Cosmos 模型提供视觉基础;NVIDIA Nemotron 模型提供语言理解、推理和工具调用功能;MCP 服务器提供企业工具和数据源。NVIDIA NeMo Agent Toolkit 等智能体框架可以跨模型和工具编排工作流,而当应用需要丰富的 3D 交互时,NVIDIA CloudXR 可以添加渲染的空间内容。

XR AI 通过分离媒体传输、模型服务、工具访问、智能体编排和客户端交付来保持此架构的模块化。当轻量级元数据流经系统时,视频像素可以保留在共享显存中,因此智能体仅在任务需要时检索图像数据。这减少了不必要的模型推理和数据移动,同时允许开发者交换客户端、模型、MCP 服务器、编排框架和部署环境,而无需重建整个智能体。

同一设计还支持多用户、多智能体场景。参与者身份充当路由边界:多个客户端可以连接到同一中心,多个智能体可以观察相同的流,每个响应都被路由回正确的参与者。这种模式为视觉理解、语音交互、企业工具使用、实时推理、上下文感知型 XR 响应以及跨 AI 眼镜、AR 眼镜、XR 头盔、移动设备、Web 客户端和 CloudXR 驱动的体验的灵活部署提供了基础支持。

开始使用 

XR AI 现已提供公测版。以下部分将介绍如何使用 XR AI 快速构建可正常运行的智能 XR 智能体,具体包括:

  • 实时摄像头、麦克风和设备数据流
  • 实时多模态交互
  • 通过 Cosmos 驱动的 VLM 实现视觉地面
  • 通过语音识别和 Nemotron 模型进行语音交互
  • 通过 MCP 实现企业连接
  • 可搜索的视觉知识捕获和检索工作流程
  • 通过 NeMo Agent Toolkit 或其他框架进行可选的智能体编排
  • 可选的 CloudXR-渲染空间内容

虽然各个行业的实施细节各不相同,但底层架构大致保持不变。 

使用公开测试版构建您的首个智能 XR 智能体

第 1 步:。克隆 XR AI 资源库

GitHub 资源库包括示例代理、模型服务器启动器、MCP 服务器、Web 客户端、XR 工作流和核心媒体基础设施。了解系统的最快方法是从简单的多模态智能体开始,然后一次添加一层功能。

bash git clone https://github.com/NVIDIA/xr-ai.git cd xr-ai 

第 2 步:。启动 AI 服务

较大的示例使用可独立启动的共享 AI 服务:

bash cd agent-samples/model-servers uv sync uv run model_servers

这将启动较重的演示所使用的模型进程,并将加载的权重保留在后台。

在当前资源库中,模型服务器堆栈包括:

  • 用于语音转文本的 nvidia/parakeet-tdt-0.6 b-v3
  • 用于视觉语言推理的 nvidia/ Cosmos-Reason1-7B
  • nvidia/ Llama-3.1-Nemotron-Nano-8B-v1 可实现快速的延迟敏感语言响应
  • NVIDIA-Nemotron-3 -Nano-30B-A3B 用于更深层次的工具调用工作流程

agent-sdk/xr-ai-models 软件包可保持模型层的灵活性。工作者通过配置引用逻辑服务,例如 llmagent_llmvlmstttts,使开发者能够交换端点、使用云托管模型或引入兼容 OpenAI 的 API,而无需更改代理逻辑。

为视觉理解、语音识别、语言推理和语音响应提供支持的核心 AI 服务已经就绪。 

第 3 步:。运行传感器优先的 XR 智能体

启动最简单的工作智能体:

bash cd agent-samples/simple-vlm-example uv sync uv run simple_vlm_example 

服务启动时,它会打印 Web 客户端 URL 和身份验证令牌。

打开 Web 客户端,连接并发送 ping 等提示,或通过麦克风提问。

工作流程很简单:

  1. 客户端流式传输摄像头、麦克风和数据消息。 
  2. XR AI 通过 XR Media Hub 传送媒体。
  3. 语音转换为文本。
  4. 使用 Cosmos 驱动的 VLM 路径分析最新的摄像头帧。
  5. 智能体生成响应。
  6. 响应以文本和合成音频的形式返回。

这是一个可以正常工作的智能 XR 智能体。它可以倾听、理解用户看到的内容、根据视觉环境进行推理,并使用文本和语音在同一会话中做出回应。

在添加企业系统、RAG 工作流或空间渲染之前,这将验证最重要的功能:基于用户环境的实时多模态交互。

第 4 步:。通过 MCP 连接企业数据

大多数企业智能体需要的不仅仅是实时感知。研究人员可能需要协议步骤、实验元数据或数据集访问权限。现场技术人员可能需要维护记录。制造工程师可能需要工作指令、控制器状态或数字生信息。XR AI 使用模型上下文协议 (MCP) 作为这些工作流程的集成层。

该库包括用于 XR 特定功能的 MCP 服务器:

  • 用于视觉问答的 vlm-mcp
  • 用于视频分析和查询的 video-mcp
  • 用于场景操作的 render-mcp
  • 用于 OpenXR 空间信息的 oxr-mcp
  • 用于向量和空间实用程序的 vec-mcp
  • 用于转录提取和检索的 transcript-mcp

开发者还可以为企业系统、检索增强生成 (RAG) 、数据库、数字孪生、资产管理系统和特定领域的工作流构建自定义 MCP 服务器。

许多组织还对捕获和理解来自物理世界的视觉信息感兴趣。XR 智能体可以观察程序、检查、维护活动或研究工作流,然后使用 NVIDIA 视频搜索和总结 (VSS) 等技术对这些信息进行索引、总结和检索。随着时间的推移,这会创建一个可搜索的视觉知识库,支持报告、训练、合规性、运营审查和检索增强生成工作流。

此时,智能体开始超越感知,进入企业行动和组织记忆。

第 5 步:。添加智能体编排

以下示例改编自 NeMo Agent Toolkit MCP 客户端工作流模式。在实践中,此配置将位于 NeMo Agent Toolkit 工作流定义中,并使智能体能够发现 XR AI MCP 服务器提供的工具。

function_groups:
  xr_tools:
    _type: mcp_client
    server:
      transport: streamable-http
      url: "http://localhost:8220/mcp"

workflow:
  _type: react_agent
  tool_names:
    - xr_tools

重要的不是框架,但 XR AI 为实时媒体、多模态感知和企业连接提供了一致的基础,同时使开发者能够选择最适合其环境的编排方法。

对更高级的编排工作流程感兴趣的开发者应查看 NeMo Agent Toolkit 文档, 其中包含有关 MCP 集成、工具调用、多智能体系统和基于 RAG 的工作流程的详细示例。

第 6 步:。添加 CloudXR 渲染的空间体验

并非每个 XR 工作流程都需要渲染 3D 内容。一些代理只需要摄像头、麦克风、语言和企业工具。当工作流受益于空间可视化时,XR AI 可以将智能体层与 NVIDIA CloudXR 配对。

bash cd agent-samples/xr-render-demo uv sync uv run xr_render_demo

此工作流启动 XR Media Hub、CloudXR 运行时、模型服务、MCP 服务器和智能体 worker。

智能体可以通过 MCP 调用渲染工具,在用户的空间环境中创建、更新和操作对象。CloudXR 将生成的体验从 GPU 基础设施串流到客户端设备。

该演示还展示了一种实用的生产模式。较小的模型负责快速致谢和状态更新,而较大的模型则负责更深入的推理和工具使用。当更复杂的操作在后台继续进行时,用户会立即收到反馈。在此阶段,XR 智能体可以与物理环境和渲染的空间内容进行交互。 

现在,您拥有一个可以正常工作的智能 XR 智能体,可以根据您的用例进行定制。您还可以了解更多信息或与我们联系,以建立更深入的 合作关系

标签