自主网络正迅速成为电信行业的重点任务之一。根据最新的 NVIDIA 电信行业 AI 现状报告,65% 的运营商表示 AI 正在推动网络自动化,50% 的运营商将自主网络视为能带来投资回报率 (ROI) 的首要 AI 应用场景。
然而,许多电信公司仍报告在人工智能与数据科学专业能力方面存在不足,这使得在复杂的多域网络中实现安全的闭环自动化扩展变得尤为困难。
如今,多数电信网络运营中心 (NOC) 采用响应式警报驱动的工作流进行运营。工程师需在多个工具中手动分流数千起事件,筛选海量警报与性能数据,并在实施修复或派遣现场团队前,将分散的仪表板与日志信息整合起来。NOC 是自主网络的自然起点,因其集中了大量可重复的任务,AI 可在其中直接降低 MTTR 与 OPEX。作为一家领先的全球技术咨询与数字解决方案提供商,Tech Mahindra 正与 NVIDIA 合作,致力于缩小这一 AI 技能差距。双方将自主网络构建块——包括开放模型、工具与实施指南——转化为电信开发者可在自身环境中轻松采用与适配的资产。
Tech Mahindra, 一家领先的全球技术咨询与数字解决方案提供商,与 NVIDIA 合作,致力于缩小这一 AI 技能差距。他们通过将自主网络构建块——开放模型、工具和实施指南——转化为电信开发者可在自身环境中轻松采用和适配的资产来实现这一目标。
本文将概述如何利用 NVIDIA NeMo 对推理模型进行微调,使其具备类似网络运营中心(NOC)工程师的能力,安全地驱动闭环、自愈式工作流。内容将展示以下方面:
- 生成电信行业的合成数据与逼真的事件数据
- 利用生产级参考工作流,将专家经验转化为结构化的推理轨迹,帮助模型学会协调工具使用、推理网络状态,并执行故障诊断与端到端管理任务
其结果是一种可重复的方法,电信团队可借此构建专属的 AI 智能体用于网络运营。这些智能体能够对大量事件类别进行分类、根因分析并提供解决方案,助力运营商迈向 TM 论坛 4 级高度自主网络。
为什么网络运营中心需要推理模型?
传统的 NOC 自动化主要基于规则和开放循环:脚本在固定条件下触发,但难以应对噪声信号、跨域依赖性以及不断变化的网络行为。因此,许多 1 级和 2 级任务(分类、根本原因分析、变更后的验证)仍然依赖人工操作,导致 MTTR 居高不下,并限制了运营商实现真正自主运营的能力。
电信推理模型成为 AI 智能体的引擎,使 AI 智能体能够以可控、可审计的方式执行此类任务。与硬编码的运行手册和要点脚本不同,智能体利用该模型解析事件、判断需调用的工具,并根据实时反馈动态调整其行为。主要特性包括:
- AI 推理与工具调用: 通过调用 NOC 工具在现有系统中实现验证、根本原因分析及自动修复,替代人工警报分类
- 端到端自动化: 全面处理警报验证、RCA 以及各类事件的修复,涵盖中断、翼、拥塞和配置问题等场景
- 降噪能力: 基于历史模式识别,过滤自清除或低价值警报,使工程师能够聚焦更高优先级任务
- 秒级响应(而非数小时): 将高频且易于处理事件的解决时间从数小时缩短至数秒,显著降低 MTTR
最终形成一个闭环自愈网络。专用的 NOC 智能体负责处理常规分类和解决方案,而工程师则从被动响应警报转向主动优化及复杂问题的解决。
设计电信推理工作流
此解决方案的技术方法将以下组件整合至一个可复制的工作流程中:
- 合成事件数据
- 专家NOC程序
- 结构化推理轨迹
- 监督微调
- 评估
该模型不试图直接从原始日志和警报中学习,而是基于精心挑选的示例进行训练,这些示例展示了经验丰富的工程师如何分析事件、调用工具以及判断修复完成的时机。
在本例中,Qwen3-32B 作为基础推理模型,依据以下设计原则针对电信 NOC 工作流进行了微调:
- 重点关注少数高影响断层,这些断层在事故中占大多数,需采取审慎的应对措施。这使模型能够深入学习关键的故障分类。
- 为每类问题定义分步操作指南,包括根本原因分析(RCA)和补救步骤,以及智能体必须使用的NOC工具。
- 利用NeMo技能参考工作流,自动生成追踪与事件记录,产出合成推理轨迹,以捕捉多步骤工具调用及每一决策背后的依据,使用 NeMo Skills 参考工作流来自动化跟踪和事件生成。
NeMo Skill 通过其 CLI、vLLM 或 TensorRT LLM 服务器编排端到端工作流,并利用训练实用程序将原始事件转化为经过微调的电信推理模型。
合成事件和 NOC 工具调用
工作流的输入是基于真实NOC行为建模的完全合成事件数据集。每条记录均包含区域、领域、优先级、问题类型、可能原因及时间等字段,同时还包括工程师注释,其中描述了处理过程中的中间步骤,以及总结最终解决方案和关闭代码的结束注释。
事件摘要能够捕捉网络降级或中断的根本原因,也是训练模型需解决的核心问题。工作流聚焦于发生频率较高且影响较大的故障,这些故障占据事件总量的大部分,需要明确的操作响应。推理模型可深入分析推动 MTTR 和 OPEX 变化的典型案例。
为了对现实中的 NOC 工作流程进行建模,我们定义了一组自定义工具,供智能体在多步骤过程中调用,例如:
- 接收并跟踪初始警报
- 检查现场与设备状态
- 执行远程操作(重置、解锁、启用)
- 监控系统以实现自动恢复或警报清除
- 核查拓扑结构、功率、光纤及公共中断信息
- 实施配置修复措施
- 重新确认警报状态
- 排查持续或重复出现的警报
- 记录操作过程与状态更新
- 协调现场调度或硬件更换安排
- 确认站点最终运行状况并关闭事件
对于每种问题类型,领域专家会将现有工作流转化为与这些工具相对应的分步指南。示例包括:优先参考的分诊工具包、需要查询的警报、设备重启的时机,以及如何验证光纤中断、停电或网络元件故障等情况。
这些指南将成为模型学习合成推理轨迹的蓝图,随后定义 NOC 智能体在生产环境中执行闭环工作流时所采用的操作空间。
将专家流程转化为推理痕迹
要将专业的 NOC 程序转化为电信领域推理模型的训练数据,请遵循下文所述的三步 NeMo 技能工作流。该流程可将运行手册转换为结构化、多轮推理轨迹,为构建自主 NOC 代理奠定基础。
第 1 步:生成结构化动作序列
教师模型采用 NeMo 技能的参考工作流,依据包含事件字段和指南模板的提示,为每个事件生成标准化的动作序列。这些步骤直接映射到 NOC 工具。
追踪经过格式化处理,因此每个步骤都会记录操作、对应参数、工具调用及直接结果,从而形成NOC工作流程的结构化视图。
第 2 步:附加每步推理
二次传递通过推理文本对每个动作进行丰富,阐明了采取各步骤的原因、所使用的信号及其对后续决策的影响。这形成了一条推理链条,反映出经验丰富的NOC工程师如何对拓扑结构、告警信息及历史行为进行综合分析与判断。
由于原始轨迹可能冗长或重复,挤压阶段会合并相关步骤,同时保留关键决策点,从而提升序列的训练效率。
第 3 步:设置多圈、工具+ 调用模型的格式
使用 NeMo Skill 的另一工作流,将格式化的轨迹转换为与 Qwen 兼容的格式,该格式可对对话式交互及多轮中的工具调用操作进行编码。多轮标记化可模拟真实的交互过程,其中智能体在推理、调用工具与解析工具响应之间交替进行,这对部署 ReAct 式 NOC 智能体至关重要。ǀ
由此产生了一个课程结构化数据集,其中较简单的案例和较短的轨迹出现得较早,而较复杂的多步骤事件则出现得较晚,从而为模型训练期间的课程学习提供支持。
微调电信推理模型
微调阶段在编译推理数据集上采用标准的训练/测试拆分方式,由 NeMo 技能负责编排数据准备工作,并以 Qwen3 32B 作为基础推理模型。NeMo 技能中的 prepare_data 实用程序应用电信公司特定的提示模板(noc_reasoning_sft)以及 Qwen 分词器,将训练过程中的每条追踪拆分为监督式微调(SFT)示例,每个示例包含:
- 事件上下文与 NOC 信号
- 多步骤工具调用及中间结果
- 各决策步骤的推理过程说明
- 最终解决方案与事件概述
这将为电信推理模型生成一个支持 SFT 的示例 JSONL 文件
为提高学习效率,我们采用课程学习方法,按照从简单的单问题事件到更复杂的多步骤、多工具案例的顺序排列样本。这有助于模型在应对长时间的多轮故障排除模式前,先掌握核心的NOC行为。
多轮分词可确保每个示例完整保留真实的查询、工具调用、响应及后续操作序列,而非孤立的单轮提示。对于需在长上下文中协调多个工具的下游 ReAct™ 智能体而言,这些功能尤为关键。
最终,Qwen3™ 32B 在此电信推理课程上经过微调,支持长序列长度,并采用跨 GPU 的张量模型并行技术。通过检查点与实验跟踪,团队得以在数据质量、课程设计及超参数等方面持续迭代优化。
其结果是一个电信专业推理模型,能够理解事件场、关闭代码和NOC程序,并可稳定驱动生产环境中的多工具、多环节工具调用工作流。
评估事件摘要的准确性和安全性
初始评估侧重于事件摘要的准确性:嵌入在 ReAct™ 风格智能体(包含工具)中的模型,在预测和执行给定事件的正确解决路径方面的表现如何。
实验将经过微调的电信推理模型与基准 Qwen3 32B 进行了比较,以评估问题和代码类别的准确性、精度与召回率。事件摘要的准确性也可按单一问题类型进行分析,从而凸显推理痕迹和课程学习效果显著的领域,为后续合成数据生成及指南设计的迭代优化提供参考。
多轮迭代的评估结果显示,微调后的模型将准确性从约 20% 提升至 60%。
除了事件汇总指标之外,随着时间的推移,我们还可以引入其他评估方法,进一步增强系统的性能与稳定性。
- LLM* 作为判断设置的“a”,用于评估推理轨迹的正确性、完整性和安全性
- LLM* 作为评判者,评估最终结论及补救措施方案
- 工具调用基准测试(例如 BFCLv3),用于衡量智能体在工具调用序列及其解释上的可靠性
- 通过推出和除采样,对大量模拟事件进行压力测试与行为测试
- 将受控错误注入到轨迹中,以训练模型识别自身错误并实现自我恢复
- 结合检索增强生成(RAG)与历史上的少量样本,提升在长尾场景下的鲁棒性
开始构建面向自主网络的电信推理模型
电信行业专用推理模型由合成数据、结构化追踪和安全工具调用提供支持,可推动NOC实现零接触、自我修复的运行模式。通过聚焦高影响力的成交代码,将专家指南编码为多轮推理轨迹,并利用NVIDIA NeMo软件工具套件对大型模型进行微调,运营商能够构建出可可靠执行真实NOC工程师任务的智能体。
管道可重复使用且适应性强,因此该方法能根据各运营商的工具、数据和策略进行定制,加快了行业从手动警报处理向智能自主网络运营的过渡。
要开始微调推理模型以构建用于网络运营的 AI 智能体,请参阅指导模型对电信网络事件进行推理.