计算机视觉/视频分析

借助 AI 智能体和技能,将视频转化为即时搜索、可操作的智能

在当今数据驱动的世界中,组织对视频的依赖日益增加,用以捕捉关键信息。然而,从海量视频片段中实时提取有意义的洞察仍是一大挑战。 NVIDIA Metropolis 视频搜索与摘要(VSS)blueprint 通过将数百万实时视频流或数小时的录制视频转化为可即时搜索、可操作的智能信息,有效解决了这一难题。

VSS 提供了一个用于构建视频分析 AI 智能体的参考架构,能够对大量实时视频流和历史数据进行实时感知、推理和操作。它结合视觉加速微服务、视觉语言模型(VLM)大语言模型(LLM)和检索器,实现视频智能分析、智能体搜索和自动报告功能。VSS 可帮助企业实时监控运营状况、识别趋势,并更快地做出明智决策。最新版本的 VSS 采用全新的模块化设计,具备高级融合搜索功能,以及一套易于与自主智能体集成的技能组件。

在本文中,您将学习如何利用编码代理,通过全新的 VSS 技能 实现 VSS 的自动部署,并将其集成到自定义应用中,同时深入探讨 VSS 3 背后的技术原理。继续阅读,了解如何将 VSS 技能与编码智能体结合,构建具备自主 视频分析 AI 智能体

您还可以观看录像,了解如何构建具有 VSS 技能的视频分析 AI 智能体。 

构建具有 VSS 技能和编码智能体的视频 AI 智能体

过去,开发者必须手动配置、部署和集成 VSS 提供的用于视频管理、搜索、摘要等的丰富微服务集,以构建视频分析应用。如今,可以使用通过 VSS 技能增强的编码代理,通过简单的代理式聊天界面自动部署、使用和集成 VSS。

VSS 技能托管在 VSS GitHub 仓库中,遵循智能体技能规范,可与多种智能体配合使用。使用这些技能的前提是拥有一个已配置为运行 VSS 的系统,以及一个兼容 Codex、Claude Code、OpenClaw 或 NemoClaw 等技能的智能体。

首先,我们将展示一个示例,展示如何将 VSS 技能添加到 Codex,并使用它来部署 VSS 搜索配置文件。然后,我们将展示如何在 OpenClaw 中添加 VSS 技能,这将使我们能够通过几乎任何聊天界面与 VSS 部署进行交互,以搜索和分析大量视频。

设置 VSS 前提条件

第一步是让系统做好运行 VSS 的准备。最简单的方法是使用适用于 VSS 的 NVIDIA Brev 可启动模板。前往 VSS 可启动文档页面,点击“Launch Blueprint”(启动 Blueprint)按钮,然后点击“Deploy Launchable”(部署可启动)。

部署完成后,单击“Open Notebook”(打开 Notebook)按钮,导航至 /video-search-and-summarization/scripts/deploy_vss_launchable.ipynb Notebook。将 NGC 中的 NGC_CLI_API_KEY 内容粘贴到第一个单元格中,然后运行整个 Notebook,包括拆分部分。这将确保系统完全适配 VSS,之后您便可运用部署技能来管理我们编码代理的 VSS 部署。

完成 Notebook 运行后,请在您的主机系统上安装 Brev CLI,启动 VSCode 并按照 Launchable 页面中的 Using Brev CLI (SSH) 部分远程连接到 Brev 实例,如下图 2 所示。

配置远程访问后,您可以通过 VSCode 扩展程序安装 Codex,将其用作编码代理。

使用 Codex 部署 VSS

在 VSCode 中,您将使用“Extensions” (扩展程序) 选项卡搜索并安装 Codex。安装后,您需要安装 VSS 技能。为此,您可以告诉 Codex 自行安装 VSS 技能,并按照以下提示提供 VSS Github 存储库的位置:

Read ~/video-search-and-summarization/skills/README.md and every SKILL.md file under ~/video-search-and-summarization/skills/. For each skill in the catalog, install it for this host so I can invoke it from a shell or chat session. Use the host's standard skills directory:
Claude Code: ~/.claude/skills/<name>/
Codex: ~/.codex/skills/<name>/
Hosts that follow the agentskills.io universal path: ~/.agents/skills/<name>/
Symlink each skill folder rather than copying it so a git pull here keeps every install up to date. Skip skills that are already installed and pointing at this checkout. When you're done, list the skills you registered and which directory you used.

下面的图 3 显示了智能体的响应方式,验证其是否可以访问 VSS 技能。

在代理掌握 VSS 技能后,您可以使用它来部署各种 VSS 组件和配置文件。然后,您可以使用 Codex 部署新的 VSS Search 配置文件,如下图 4 所示。

然后,Codex 将规划部署,配置必要的环境变量,并部署启用 VSS 搜索功能所需的所有容器。在此处,您可以继续使用 Codex 与 VSS 交互以搜索视频,或继续学习下一节,了解如何结合使用 OpenClaw 和 VSS 技能。

使用 VSS 和 OpenClaw 搜索视频

运行搜索配置文件后,您可以安装 OpenClaw 并将其配置为使用 VSS 分析视频的自主智能体。

我们将向您展示如何在 Brev 系统上设置 OpenClaw,以体验强大自主智能体的功能。您只需按照连接到 Brev 实例的 VSCode 终端中提供的标准 OpenClaw 安装指南,并使用推荐的安装脚本即可完成设置。

运行初始配置后,您可以孵化如下图 5 所示的智能体,并为其提供一些上下文,说明它将成为使用 VSS 构建视频分析应用的智能体。

初始设置完成后,您需要为 OpenClaw 提供 VSS 技能。最简单的方法是手动将技能复制到 OpenClaw 工作空间。

mkdir ~/.openclaw/workspace/skills
cp -r ~/video-search-and-summarization/skills/* ~/.openclaw/workspace/skills

现在,通过在终端中运行 openclaw dashboard 命令来打开 OpenClaw UI,这将返回访问 OpenClaw UI 的可点击链接。打开后,您可以验证 OpenClaw 是否可以使用 VSS 技能。

现在,您可以让 OpenClaw 使用上一节中部署的 VSS 搜索配置文件开始分析大量视频数据。在此示例中,您将提供在仓库中截取的三个 10 分钟视频的路径,这些视频需要进行分析才能安全使用梯子。您希望 OpenClaw 使用搜索功能在视频中找到所有使用梯子的实例,并验证工人是否穿着硬帽子和安全背心。为此,您将使用以下提示:

I have a set of warehouse videos located at ~/warehouse_videos. I need to find any instances of a worker climbing a ladder and verify they are wearing a hardhat and safety vest. Can you do this with the VSS Search profile that is deployed?

收到提示后,OpenClaw 将开始在后台开展工作,找出完成任务所需的必要技能和相关工具调用。

OpenClaw 利用 VSS 技能将您的视频文件上传到 VIOS,通过嵌入微服务提取视频以生成可搜索的索引,然后使用 VSS 中的融合搜索功能找到戴着硬帽子和安全背心的工作人员爬楼梯时的视频片段。

完成后,OpenClaw 会返回一个简洁的报告,其中包括视频中看到的所有梯级使用情况以及视频中的屏幕截图。

本节仅介绍一个简单的示例,使用 Codex 进行部署,并使用 OpenClaw 进行视频分析,同时具备 VSS 技能。通过使用 VSS 技能增强智能体,他们可以获得有关视频数据的宝贵见解,并使用 VSS 构建新应用。

现在,您可以深入了解为 VSS 3 中丰富的视频分析功能提供支持的技术。

大规模视频搜索仍然是现代信息检索领域最具挑战性的前沿领域之一。用户查询本身既复杂又不明确,在单个视觉嵌入中捕获完整的语义意图从根本上来说是远远不够的,尤其是当对象和事件带有抵制简单向量表示的多层属性时。

在大规模的情况下,在数百万小时的画面中定位特定时刻成为真正的“大海捞针”问题,在整体嵌入空间中进行最近邻点搜索会迅速降低精度和召回率。

视频 1:使用自然语言按属性、事件和操作进行代理式视频搜索

为了解决这些限制,需要一个基于以下两种核心功能的更复杂的搜索架构:

  • 多类型嵌入提取和检索,结合相关性过滤和语义重复。
  • 通过代理式推理驱动的搜索编排; 将复杂查询分解为可管理的子查询,在每一步应用基于推理的检索策略,并通过迭代验证与反思循环逐步优化结果。

该搜索架构首先使用带有嵌入和 RTVI 嵌入微服务的 RTVI-CV 来提取视频和特征。然后,VSS 智能体使用此特征数据和视觉感知工具对视频执行深度迭代搜索,创建计划并检索结果,以定位视频时间轴中的特定对象或事件。

模块化架构带来高灵活性和高性能

VSS 围绕基于 docker-compose 的模块化开发者配置系统进行设计:在五分钟内部署基础代理,并根据需要在顶部分层其他工作流。

工作流程 配置文件 核心能力
基础知识/ 问答 碱基 基于 VLM 的问答和短视频片段生成报告
警报验证 警报 (验证) CV 工作流行为分析 VLM 验证
实时 VLM 警报 警报 (VLM) 对直播进行持续 VLM 异常检测
搜索 搜索 跨视频存档的代理式多嵌入搜索
视频摘要 lvs 扩展录制的分块摘要
表 1. 可用的 VSS 开发者配置文件

不同配置的多种 GPU 均支持每个工作流,可满足您的硬件和性能需求。

我们来看看各种工作流程和配置的一些基准测试。

代理式搜索工作流的特点是具有最大并发输入流、接收传入流所需的时间以及接收搜索结果的检索延迟。下表 2 显示了 H100 和 NVIDIA RTX PRO 6000 在单 GPU 配置上的这些指标。

GPU 最大并发流数量 最大摄取延迟 检索延迟
1 个 H100 33 0.079 2.24
1 块 RTX PRO 6000 51 0.101 1.87
表 2:智能体搜索工作流的关键性能指标

对于警报验证工作流,我们会测量并发流的最大数量以及进行验证所需的延迟。下表 3 显示了使用 RT-DETR 作为检测器,Cosmos Reason 2 作为 VLM 验证器在流上运行时的测量指标,平均每分钟 1 次警报事件。

GPU 最大并发流数量 验证延迟
1x DGX Spark 1x AGX Thor 14 0.89
1 个 H100 144 1.01
1 块 RTX PRO 6000 87 0.82
表 3. 警报验证工作流程的关键性能指标

长视频摘要微服务可快速生成数小时视频片段的摘要。下图显示了给定 GPU 配置总结一个小时视频所需的时间。将 LVS 微服务扩展到多个 GPU 可以显著缩短摘要时间。

开始学习 VSS 技能

借助 VSS 技能,开发者能够使用自然语言将视频转换为可搜索、有意义的数据,从而更轻松地发现见解、生成摘要和构建更智能的应用。

如需深入了解 VSS,请参阅文档。在 Github 中探索所有 VSS 技能。

有关技术问题,请访问我们的论坛

GTC 活动:  加入我们,参加 6 月举行的 NVIDIA GTC 台北大会。开发者、研究人员和行业领袖将齐聚一堂,共同探讨人工智能的未来,涵盖代理式 AI、推理 AI、物理 AI、机器人等前沿领域。 了解更多信息

标签