Claude Code、Codex 和 LangChain Deep Agents 等智能体工具是优秀的任务编排工具,能够管理会话、调用工具链、执行代码并响应开发者的意图。然而,当这些工具需要进行深度研究时——例如合成多个文档、生成基于企业数据的决策简报,或进行具备来源追溯的长篇分析——研究的复杂性便重新落在了开发者身上。
构建这些智能体的团队需要基于企业数据,连接数据源、路由查询、管理身份验证、优化提示、评估输出结果并保留源属性。 智能体 必须基于企业数据,连接数据源、路由查询、管理身份验证、优化提示、评估输出结果并保留源属性。 NVIDIA AI-Q 将这些工作整合为一个开源的深度研究框架,可作为可移植的智能体技能供智能体直接使用。
借助这项技能,智能体将研究任务委托给本地或托管的 AI-Q 服务器,并接收结构化报告。线束无需拥有研究工作流。敏感的源数据可以保留在企业环境中,这对于医疗健康、金融服务、政府和国防等受监管的行业至关重要。
什么是 AI-Q 技能?
借助 AI-Q 技能,Claude Code、Codex 或其他通用代理能够向运行中的 AI-Q 服务器提交研究任务,并获得格式良好、内容详细且带有引用的报告。该技能包括一个 SKILL.md 文件,用于告知工具如何使用 AI-Q,以及一个用于管理请求路由、作业提交、轮询和结果检索的辅助脚本。
同一项技能在智能体工作流中可能具有不同含义。智能体技能为工具提供指导,NVIDIA NeMo Agent Toolkit 有助于定义可复用的工具功能,而 AI-Q Agent Skill 则将完整的研究工作流(包括意图分类、问题澄清、浅层研究、深度研究和结果评估)封装为一种更高级别的功能。智能体可协同委托研究任务,无需在每个工具中重复构建 检索、规划、内容合成和引用逻辑。
视频 1. CODEX 智能体将多数据源研究任务委托给 AI-Q 作为一项技能
安装 AI-Q 智能体技能
打包的技能存储在位于 .agents/skills/aiq-research/ 的 AI-Q GitHub 仓库中,其根目录为 SKILL.md。scripts/aiq.py 辅助程序负责处理路由的 /chat 请求,并默认使用 http://localhost:8000(可通过 AIQ_SERVER_URL 覆盖)来管理 AI-Q 服务器上运行的异步深度研究任务。
预备知识:
- Python 3.10 或更高版本
- 运行中的 AI-Q Blueprint 服务器,可通过线束在本地访问或托管
Claude Code
Claude Code 从 .claude/skills/ 加载存储库 – 本地技能。为确保与 Claude 兼容,请使用以下两个命令手动将 AI-Q 技能关联到工作空间:
mkdir -p .claude/skillsln -s ../../.agents/skills/aiq-research .claude/skills/aiq-research |
对于跨存储库运行的用户级安装:
mkdir -p ~/.claude/skillscp -R .agents/skills/aiq-research ~/.claude/skills/aiq-research |
Codex
将技能放入线束的配置技能目录:
mkdir -p <codex-skills-dir>cp -R .agents/skills/aiq-research <codex-skills-dir>/aiq-research |
OpenCode
OpenCode 从 ~/.config/opencode/skills/ 加载用户技能:
mkdir -p ~/.config/opencode/skillscp -R .agents/skills/aiq-research ~/.config/opencode/skills/aiq-research |
重新启动会话,然后使用以下命令进行验证:
python3 scripts/aiq.py# Usage: aiq.py <command> [args] |
注意: 使用此技能需要一台正在运行的 AI-Q 服务器。请参阅入门指南,了解加速计算的详细说明,包括获取推理和网页搜索服务所需 API 密钥的步骤 。
安装后,智能体线束可以看到单个深度研究功能。例如“在我们的内部策略文档中研究 X 的监管环境并生成一份备忘录”等贯穿技能的短语,该技能会将作业提交给 AI-Q 服务器,轮询以完成作业,并返回带有引用的结构化报告。
安全 MCP 集成:将 AI-Q 作为 MCP 客户端
企业案例的另一半是数据访问。这个新版本的 AI-Q 增加了对连接到作为数据源的经过身份验证的 MCP 服务器的一流支持,因此研究流程可以从已经使用的相同企业系统代理中提取,而无需建立并行检索堆栈。
AI-Q 基于 NeMo Agent Toolkit 构建,因此 MCP 服务器作为 NeMo Agent Toolkit 功能组插入。此版本记录了三种端到端集成模式:
| 场景 | 图案 |
|---|---|
| MCP 服务器不支持逐用户身份验证 | mcp_client 函数组 |
| MCP 服务器使用后端/ 应用程序凭据 | mcp_client@ mcp_service_account |
| 下游 API 信任 AIQ 用户的承载者词元 | 使用 get_auth_token() 的自定义 AIQ 工具 |
未认证的 MCP 服务器 是最简单的情况。将 mcp_client 函数组指向服务器 URL 后,AIQ 会自动发现远程工具,并将其注册为 NeMo Agent Toolkit 函数:
function_groups: mcp_financial_tools: _type: mcp_client server: transport: streamable-http url: ${MCP_SERVER_URL:-http://localhost:9901/mcp} |
使用 streamable-http 进行新部署。它是受保护的 MCP 服务器所必需的,建议在生产验证场景中使用 sse。
服务帐户 MCP 身份验证 是 CI、批处理作业和共享企业数据源的首选模式,其访问受应用程序级别而非每个用户的约束:
function_groups: mcp_enterprise_tools: _type: mcp_client server: transport: streamable-http url: ${ENTERPRISE_MCP_URL} auth_provider: enterprise_service_accountauthentication: enterprise_service_account: _type: mcp_service_account client_id: ${SERVICE_ACCOUNT_CLIENT_ID} client_secret: ${SERVICE_ACCOUNT_CLIENT_SECRET} token_url: ${SERVICE_ACCOUNT_TOKEN_URL} scopes: - enterprise.read |
对于同时需要 OAuth2 服务帐户词元和特定于服务的委托词元的 MCP 服务器,service_token 块会在出站调用时添加第二个报文头。
当下游 API 或 MCP 网关已信任 AI-Q 用户的承载者词元时,当前支持的模式是转发已登录的 AIQ 用户的身份。AI-Q 会公开 aiq_agent.auth.get_auth_token() 。请求词元会在作业提交时捕获,并在异步 Dask worker 中恢复,因此长时间运行的深度研究作业会在执行时保留用户的身份上下文。作业中词元不会刷新。我们计划在下一个版本中进行员工更新。在此之前,超出词元 TTL 权限的作业将在需要验证的工具调用中失败。
部署在数据所在位置的研究人员
当 AI-Q 与企业数据在相同环境中运行时,其集成效果最为强大。AI-Q Blueprint 提供了 Docker Compose 和 Helm Chart,这意味着同一份 Blueprint 可直接在开发人员的笔记本电脑、本地或基于云的 Kubernetes 集群,甚至在隔离的数据中心中运行。
对于受监管的行业,三个部署属性至关重要:
- 管道将在数据所在位置运行。 AI-Q 能够读取企业数据,执行检索与合成,并生成报告,而无需原始文档离开受控环境,这对有数据主权要求的企业至关重要。随后,智能体线束将接收带有引用的输出,而非直接访问底层源数据。
- 开放模型可支持自主托管,而不仅限于通过管道调用。 NVIDIA Nemotron 开放模型可在本地作为 NVIDIA NIM 运行,而基于云的前沿模型仍可作为完全可配置的替代方案。这使得团队能够构建灵活的工作流程:利用前沿模型处理复杂的编排与规划任务,将敏感的研究任务分配给自托管模型,或完全禁用前沿模型以满足严格的合规要求。
- 可审计性被直接融入工作流程,而非事后附加。 AI-Q 报告包含源属性,NeMo Agent Toolkit 会生成 OpenTelemetry 追踪信息。合规团队可审查所检索的来源、使用方式,以及最终引用答案的生成过程。
对于受监管的团队而言,实际影响显而易见:如果智能体不应直接访问敏感的源数据,他们仍然可以返回基于这些数据的研究。AI-Q 在受治理环境中处理检索和合成,而 MCP 身份验证模式则保留现有的访问控制。
专为研究而构建的工作流
智能体线束围绕编排而设计。当智能体在没有专用研究后端的情况下处理研究时,通用智能体或子智能体会改变研究工作流程。这适用于查找,但在需要企业多源合成、长视野规划或引用准确性的任务中,可能会产生不一致的结果。
AI-Q 工作流专为提高研究质量而设计。每个查询都经过四个阶段:
- 一个 意图分类器 决定研究深度。
- 一个 人类在环澄清器 可在检索开始之前解决模糊问题。
- 一个 浅薄的研究人员 处理范围广泛的快速查找。
- 一名深度研究人员负责跨企业数据源进行长视距合成。
每个阶段都使用既定基准、FreshQA、Deep Research Bench 和 DeepSearchQA 进行独立调整和评估。
AI-Q 可采用混合模型方法:由 Nemotron 推理模型负责规划与内容合成,同时通过可配置的前沿模型路由器处理需要额外功能的任务。团队可自主选择满足其成本、合规性和性能需求的模型路径。
该蓝图利用用于基准测试的相同评估结果,因此团队可以根据自己的数据衡量质量。报告还包括来源属性,显示已检索到哪些来源,以及这些来源如何为最终答案做出贡献。
这使得 AI-Q 成为智能体利用的专用研究后端,而不是试图动态组装研究管道的通用智能体。
开始使用
AI-Q 作为开源蓝图提供。现在,团队可以在其智能体工具中添加可重复使用的深度研究功能。
开始使用:
- 启动服务器: 前往 AI-Q GitHub 资源库 获取使用 Docker Compose 或 Helm 的快速部署说明。
- 连接数据: 查看有关添加数据源的官方文档,以安全地连接企业 MCP 服务器。 添加数据源
- 安装技能: 运行本文前面详述的设置命令,将 AI-Q 链接到 Claude Code、Codex 或 OpenCode。
AI-Q 现已通过 Dell AI Factory 的验证。对于在 Dell 基础架构上运行的团队,由 Dell AI 数据平台支持的 Dell-NVIDIA AI-Q 2.0 参考架构,将上述部署模式整合为可用于生产的本地多智能体研究工作流,专为金融服务、公共部门和制造业等受监管行业设计。