电信运营商正在跨网络运营、客户服务和后台工作流采用 AI,但大多数运营商仍处于自主化的早期阶段。例如,在网络运营中,自动化通常属于 TM Forum 的自主网络级别分类的 L2 – 3 波段,可简化特定网络域中预定义解决方案的执行。
达到4–5级自动驾驶需要能够理解操作员意图、实时感知网络、研究和制定计划、权衡权衡并协调跨领域受治理行动的自主智能体。
限制不再是模型质量,而是电信公司是否构建了一个自主平台,在该平台中,智能体利用了由电信域模型、策略控件、工具和数字孪生组成的共享堆栈。这为智能体发现和验证更好的运营方式奠定了基础,而不仅仅是执行现有的运营方式。
本文将介绍智能体在问题解决循环中移动的心理模型,然后概述电信自主平台的关键构建模块,以便智能体以更高级别的自主性安全地通过这些循环。
智能体的类型和问题模式
要了解自主智能体在电信运营中的哪些方面增值,可以了解它们如何围绕常见的问题解决方案循环协同工作。
图 1. 电信运营中的问题解决方案循环
智能体的类型包括:
- 按需智能体,用于处理边界任务,例如应用配置更改、运行 NOC 脚本或回答客户服务问题。
- 长期运行的智能体在很长一段时间内一直存在问题,持续感知网络,验证和协调跨系统的操作,并决定何时进行上报、回滚或重新优化。
- 深度研究智能体,利用专业技能探索已知答案之外的问题,通过在数据、工具和数字孪生之间展开扇形散开来提出、验证和排序替代计划,而不是返回一个单一的单次修复。
操作问题通常分为三种模式:
- 遇到的问题,已知解决方案 (执行路径) :意图或事件 (例如。客户工单或检测到的异常) 清晰地映射到既定的推理痕迹,通常源自专家程序和历史事件。该模式与现有脚本或运行手册相匹配,并由按需智能体执行,或者当必须随着时间的推移应用和验证相同的解决方案时,该模式被整合到长期运行的智能体循环中。
- 已知解决方案、未知优化 (优化路径): 可以理解该领域,但运营商希望根据能效、延迟、弹性或成本等可衡量的目标获得更好的结果。此时,智能体调用深度研究技能来生成排名优化计划,而长期运行的智能体则通过根据策略应用所选计划、观察其随时间推移产生的影响,并根据需要进行迭代或回滚,从而“闭环”。
- 未遇到的问题 (发现路径): 某些问题与现有的任何推理追踪不匹配。智能体利用深度研究来描述正在发生的情况,关联跨领域的信号,将陌生的模式转化为定义明确的问题。之后,按需智能体可以执行离散操作,而长时间运行的智能体可以管理更长的水平恢复和调整。
随着这些计划和执行跟踪被编入新的或更新的技能,曾经需要研究的问题可以成为受控制的执行路径,随着时间的推移扩展运营商的可重复使用的自主性库。
电信自动驾驶平台剖析
为了支持不同类型的智能体和问题模式,电信公司需要一个用于共享推理、执行和治理的自主平台,而不是孤立的自动化集合。
图 2. 在电信自动驾驶平台内运行的自主电信智能体
该平台的核心是电信智能体,它们了解网络和服务的行为方式,并可以将这种理解转化为闭环操作。这些智能体基于电信域模型和智能体工具构建,在安全执行运行时中运行,并连接到工具、数字孪生以及智能体在计划、推理和行动中调用的共享技能。
数据和模型
高质量的网络和客户数据是电信感知型 AI 智能体的基础。电信公司可以使用 NVIDIA NeMo Data Designer 和 NeMo Safe Synthesizer 生成合成数据并对敏感记录进行匿名化处理,在保护隐私的同时增加“类似生产”的数据集的数量和多样性。
NVIDIA Nemotron 等推理模型可以基于这些数据集进行进一步微调,并以电信本体和运营环境为基础。这为智能体提供了解释信号、形成和验证假设以及推理系统级动态的基础,并理解了特定的操作序列、工具调用和决策是安全有效的原因。此外,NVIDIA NV-Tesseract 时间序列模型可以分析多元网络遥测,以检测异常和预测行为,从而提供传感器级信号,网络智能体可以利用这些信号进行主动异常检测和修复工作流程。
智能体束
AI 智能体是围绕一个或多个模型 (包括电信推理模型) 构建的智能体工具。线束是控制循环:它负责意图、管理会话状态和内存、决定何时检索更多上下文、使用哪些电信工具和数字孪生,以及何时将专门技能交给 NVIDIA AI-Q 等用于 深度研究。
NVIDIA Agent Toolkit 为企业 AI 智能体提供构建块,使团队能够将智能体的利用连接到共享工具、可观测性和评估框架,从而更可靠地部署和编排电信智能体工作流。
安全运行时
电信网络在严格的可靠性和监管约束下运行。自主代理需要严格实施安全和治理边界。NVIDIA OpenShell 安全运行时环境可为每个智能体创建单独的隔离沙盒,并根据企业策略管理对文件系统、网络、工具和推理端点的行为和访问。NVIDIA NemoClaw 蓝图可管理智能体部署、生命周期和策略部署。
一个由运营商和合作伙伴组成的生态系统正在使用此运行时在电信工作流中试用自主智能体,例如网络异常检测、应用迁移和客户服务。
这些层共同构成了一个共享的自主平台,在该平台中,不同类型的智能体都利用相同的电信感知推理基础、工具和安全运行时,因此每个新用例都增强了一个通用堆栈,而不是使用碎片化、定制化的智能体实现。
深度研究智能体:从执行到发现
深度研究智能体通过超越预定义的运行手册来调查网络中复杂的非结构化场景,提高了运营自主性。
他们探索已知事物的空间。这些智能体不是执行单个静态脚本,而是跨孤立系统分析历史数据、日志和遥测数据,以提出优化的操作程序和补救策略。
NVIDIA AI Q 蓝图就是一个示例,展示了这种深度研究模式如何组织为多智能体系统:
图 3. 在电信环境中应用 NVIDIA AI-Q 的示例
规划器智能体构建问题框架,并决定哪些领域和数据源至关重要。研究人员代理在 OSS/ BSS 系统、遥测和数字孪生之间展开合作,并行收集证据。Orchestrator 智能体将结果汇总在一起,并推动额外的测试,直到达到质量和风险值。
其结果是一组与基础数据和模拟相关联的经过排序的提案。这些提案可以传递给智能体,这些智能体可以根据策略应用更改、监控更改后遥测技术,并在未实现目标时触发回退或新研究。
在高风险领域,这些循环应以明确的审批值运行,以便运营商可以在执行任何生产变更之前审查提案。
电信工作流程实用示例
为了解这些概念在现实世界场景中的应用情况,以下示例展示了自主平台如何组织智能体,以应对网络运营和创新中的特定高影响力挑战。
SR-MPLS 网络中的异常检测和补救
这种模式的一个示例是运营商级 SR-MPLS 主干网络中的自主异常检测和补救,其中深度研究智能体提出了补救方案,而长期运行的智能体则根据策略执行并验证所选计划。
图 4. 使用 NVIDIA NemoClaw 和 NVIDIA OpenShell 的自主 SR-MPLS 异常修复示例
当遥测技术发出拥塞、隧道性能降低或链路故障的信号时,深度研究智能体会提取拓扑和路由状态,分析性能指标,并比较其他 SR-TE 路径或路由策略。它不会生成一次性答案,而是会返回一组经过排序的补救方案,并在性能、风险和策略方面进行权衡。
然后,长时间运行的智能体充当执行脊节点:它选择计划,跨 SDN 控制器和流量工程工具编排所需步骤,并观察更改后的遥测数据以确认网络是否已恢复,必要时返回替代计划。
由于该循环在具有逼真事件和遥测技术的模拟 SR-MPLS 环境中运行,因此此示例还可以用作深度研究测试平台,团队可在此环境中生成结构化追踪、微调电信推理模型,并验证新的自主模式,然后再将其投入生产。
无线网络算法设计
除了运营之外,代理式 AI 正在开始重塑网络研发。例如,NVIDIA Research 开发的 AI 电信工程师 将无线 PHY 或 MAC 层问题和评分函数作为输入,然后使用代理式进化搜索发现符合或超越既定基准的新算法。
在每次迭代中,元智能体都会提出不同的算法理念,这些理念由并行智能体实施和评估,例如使用 NVIDIA Sionna,一个用于 6G 研究的 GPU 加速无线模拟库。与遗传算法类似,在未来几代中保留、组合和进一步开发性能最佳的想法,同时探索新的想法。
在早期实验中,AI 电信工程师生成了可解释的 PHY/ MAC 层算法,与信道估计的强大经典方法相匹配,与用于链路自适应的行业标准解决方案相比,可提供超过 3% 的频谱效率提升。总而言之,这些结果表明,智能体可以超越操作,自主发现并高效实施新型网络算法。
AI 原生电信公司如何实现自主化
下一波 AI 原生电信公司可以将智能体扩展到工作流中,在工作流中出现问题,并跨领域发现、验证和完善解决方案,从而实现更高水平的自主性。这种演进依赖于对电信推理模型、共享本体、加速仿真和安全运行时 (可支持持久的护栏式智能体) 的精心投资。
接下来的实际步骤是识别高价值工作流并在自动驾驶平台上实施,以便每个工作流可靠地完成从初始事件或意图到验证执行的完整问题解决方案循环。然后,在同一平台中添加工具、域和策略,以便每个新用例都能增强共享的推理和执行堆栈,而不是创建孤立的自动化。换言之,不要将智能体视为孤立的实验,而是要将其视为电信自主平台的首批租户,为新一代 AI 原生电信公司提供支持。
了解详情: