智能体/生成式 AI

借助智能体技能和 NVIDIA Nemotron 语音,更快地评估临床 ASR 模型

训练语音 AI 模型以正确识别或合成临床术语异常困难。药物名称如 AcetaminophenAmlodipineCefazolinBiktarvy 不在日常词汇表中。手术名称、解剖学术语和特定专业的诊断以不同的形式引入了同样的问题。现成的语音系统听起来很流畅,但仍然会漏掉对临床工作流程最重要的词语。

合成数据生成 (SDG) 有助于缩小这一差距,但前提是合成语音在语音上准确无误。如果文本转语音 (TTS) 系统对药物或手术名称发音有误,则会生成训练或评估数据,以教授错误的发音。它不会修复原始问题,而是会增加故障检测的难度。在正确实施后,SDG 使团队能够在几个小时内完成领域基准测试,而无需收集真实的临床音频,也无需等待注释流程或 IRB 批准。

本文介绍了临床自动语音识别 (ASR)工作流,用于生成发音感知的合成音频、审查临床术语和评估识别质量。 NVIDIA 智能体技能为工作流提供指导,而 NVIDIA NeMo Data DesignerNVIDIA Nemotron Speech則提供数据生成和语音服务。

为什么临床 ASR 需要可重复的反馈回路?

临床语音 AI 正在成为听写、环境文档、呼叫中心工作流、患者接收和就诊后随访的一部分。这些系统有望理解通用语音中罕见但对任务至关重要的术语:药物名称、手术名称、解剖学、诊断、设备、症状和专业缩写。

现实世界的临床音频也难以收集和共享。它可能价格昂贵、注释缓慢、受隐私要求限制,并且在专业和罕见术语之间的分布不均。根据 HIPAA,真实的患者记录是受保护的健康信息,这意味着它们无法在团队之间自由共享、检查版本控制或在自动化测试流程中使用,否则会产生重大的合规性开销。根据设计,合成音频不包含 PHI,因此它是团队可以版本化、共享和测试的唯一临床语音数据形式。公共数据集可能不包括部署所依赖的确切术语。

实际挑战不仅在于生成更多数据。开发者需要一种可重复的方式来定义目标临床概况、创建基准、审查发音风险、衡量 ASR 行为、改进模型,并决定下一个周期是否应扩展术语、改进发音、添加噪声或微调。

AI 智能体技能对临床语音 AI 有何帮助?

智能体技能引导开发者完成临床 ASR 评估的重复步骤:定义配置文件、构建以术语为中心的基准测试、查看发音、生成合成音频、测量 ASR 行为以及选择下一次迭代。

在本文中,飞轮是完整的改进循环:构建基准测试,评估 ASR 行为,使用结果决定要更改的内容,并在更改后重新评估。工作流是该循环的一个环节,例如生成句子、添加发音标记、合成音频和编写清单。

工作流始于对话,而非静态配置文件。您可以在任何智能体工具 (例如,Cloude Code 或 Codex) 中运行构建技能,并描述他们想要进行压力测试的临床工作流程。然后,数字健康临床 ASR 构建智能体技能会询问专业领域、目标设置、已知故障条款和所需上下文,然后生成初始测试基准配置。

该技能一次问一个问题,依次是:

  • 什么专业或工作流程
  • 观察到了哪些 ASR 故障模式
  • 每天会遇到哪些症状,哪些症状比较困难

常用术语成为基准,而困难术语成为推动基准设计的信号。

Developer:
/flywheel-build
Agent:
What clinical specialty or workflow is this for?
Examples: orthopedic practice, oncology dictation, ICU handoff, ambulatory cardiology.
Developer:
Orthopedic practice. Focus on post-op instructions and PACU handoff.
The ASR system often misses medication names and procedure names.
Agent:
I'll start a benchmark profile with drug, procedure, anatomy, and condition terms, then run
pronunciation QA before generating the full audio set.

这种以剖面为导向的启动方式可在骨科手术、心脏病学、肿瘤学、行为健康或词汇表不同的任何其他领域配置相同的飞轮。智能体的工作是使工作流程保持正确轨道:收集临床资料、提出或提取术语、先生成一个小的 QA 集、将 IPA 漏报的问题提交审查,然后构建完整的基准。

类别 术语示例
药物 Cefazolin、Ketorolac、Ropivacaine、Enoxaparin、Tranexamic 酸
程序 全关节置换术、半关节置换术、ORIF、关节镜检查
解剖学 Acetabulum、骨高原、股颈、骨
条件 血关节病、骨髓炎、隔室综合征、股撞击
表 1. 骨科实践简介的临床术语类别示例

如何根据临床种子术语生成支持 TTS 的合成音频

从配置文件特定术语列表开始,工作流使用 NeMo Data Designer 将种子术语扩展为更丰富的数据集。NeMo Data Designer 从头开始或根据种子数据生成高质量的合成数据。开发者定义输出列及其之间的依赖关系。

NeMo Data Designer 可在处理批处理、并行执行、验证以及预览或完整运行执行时解决依赖项。在此飞轮中,输出列会生成完整的合成语音记录:唯一的样本 ID、包含目标术语的临床句子、发音源、带有音素标记的语音合成标记语言 (SSML) 句子 (如果可用) ,以及合成音频的目标路径。

在此工作流中,五列可将临床术语转换为带音素标注的 TTS 就绪型句子 (图 1) 。

目的 技能运用
sample_id 生成样本的唯一 ID 保持音频文件、文稿和指标行对齐
sentence 包含确切目标术语的临床句子 成为 ASR 参考转录
ipa_pronunciation 经过审查或根据字典衍生的候选发音 推动音素注入,并标记审核差距
ssml_sentence 使用 SSML 封装且带有音素标记 (如果可用) 的句子 成为 TTS 输入
audio_filepath 合成音频文件的目标路径 成为 manifest 音频路径
表 2. 生成的文本数据集中的核心列

生成的句子提示应保留确切的目标词。如果模型替代品牌名称、通用同义词、缩写或拼写变体,基准测试将不再测试预期实体。代理技能可以检查该条件,并重新生成或拒绝不包含确切术语的行。

药物 句子 ipa_ 发音 ssml_sentence audio_filepath
Acetaminophen The nurse administered Acetaminophen to the patient after surgery to manage mild pain. əˌsiːtəˈmɪnəfɛn <speak>The nurse administered <phoneme alphabet=”ipa” ph=”əˌsiːtəˈmɪnəfɛn”>Acetaminophen</phoneme> to the patient after surgery to manage mild pain.</speak> data/audio/audio_Acetaminophen_3c7a1f02.wav
表 3. 文本数据集中经过示例丰富的行

SSML 音素标签注入

SSML 是一种基于 XML 的标记语言,可为 TTS 引擎提供有关如何合成语音的说明。它对于控制发音、节奏、音量和重点等方面至关重要。SSML 步骤将生成的句子包装在 <speak> 元素中,并在目标词条的每次出现周围注入 <phoneme alphabet="ipa"> 标记。该实现使用不区分大小写的正则表达式,以便保留句子中的原始大小写,同时保持稳健的匹配。

<speak>A forty-five year old patient was prescribed
<phoneme alphabet="ipa" ph="əˌsiːtəˈmɪnəfɛn">Acetaminophen </phoneme>
once daily to manage mild pain.</speak>

人工审核 IPA 发音差距

字典查找涵盖许多临床术语,但并非全部。较新的药物名称、商号、罕见的程序术语和特定专业的短语可能丢失,或者可能返回需要检查的发音。飞轮通过明确的手动审查路径来处理这些空隙。

当可信字典的发音不可用时,由 LLM 支持的智能体工具可以提出候选 IPA 字符串。重要的界限是,LLM 的提案不会被视为正确的事实。该候选项必须通过验证和人工审核。

手动发音循环如下:

  1. 标记 IPA 缺失或置信度低的行
  2. 使用智能体工具提供一个或多个 IPA 候选项
  3. 根据 TTS 音素清单验证候选项
  4. 在上下文中合成该术语的简短问答片段
  5. 审核以接受、编辑或拒绝应聘者
  6. 将已接受的发音写入已审核的优设文件
  7. 重新生成受影响的 SSML 和音频

此过程会将发音差距转化为一个小的审查队列,而不是隐藏的基准质量问题。例如,在骨科实践参考会议中,需要对 Femoroacetabular Impingement、Hemiarthroplasty、Ketorolac、Pertrochanteric 和 Ropivacaine 等术语进行回顾或覆盖。经过审核后,完整的基准测试生成了 67 个音频样本,其中没有任何行,依赖于未经审核的原生 TTS 发音。

只有当智能体真正停止并在正确的时间等待人类时,循环才会起作用。技能本身会强制暂停。技能中的指令是为智能体而不是开发者编写的,它们以通俗易懂的语言告诉智能体,在用户听完视频片段之前,智能体无法继续学习。

如何合成音频并生成清单

在每行具有 SSML 句子和目标音频路径后,工作流将为每个生成的样本合成一个音频文件。 NVIDIA Magpie TTS Multilingual 非常适合这个阶段,因为它支持带有 IPA 和 ARPAbet 的 SSML 音素标签。这使得合成器能够使用已审查的音素序列渲染临床术语,而不是仅依赖其自己的音素到音素预测。

最终输出是兼容 NeMo 的 JSONL 清单文件。每行都将音频文件与其转录内容和元数据关联起来:

{
  "audio_filepath": "data/audio/audio_Acetaminophen_3c7a1f02.wav",
  "text": "The nurse administered Acetaminophen to the patient after surgery to manage mild pain.",
  "duration": 3.914,
  "term": "Acetaminophen",
  "entity_category": "drug",
  "ipa_source": "reviewed"
}

该清单是 SDG、ASR 评估和模型适应之间的传递点。它也是基准测试中保留按实体类别、发音来源、上下文类型、语音或声音条件对结果进行切片所需的元数据的地方。

具备 ASR 技术的临床级优质飞轮有什么价值?

虽然生成语音控制的音频本身很有用,但更大的价值在于 AI 智能体 通过改进循环与开发者合作。用户首先需要了解临床状况。构建技能会创建一个基准测试。评估技能会报告 ASR 系统难以处理的问题。适应技能有助于决定是否微调、扩展术语列表、提高发音覆盖率或添加更困难的声音条件。然后,重新评估步骤会检查更改是否有用。

评估技能包括一条值得研究的反直觉路线规则。如果 Merriam-Webster 改进了音频评分,但 Magpie 后备音频评分较差,则该技能会引导用户返回构建,而不是微调。这种模式是发音覆盖差距,而不是模型差距。通过对 TTS 发音差距进行微调,模型可以错误地识别模型自身的错误。ASR 转录本身由 NVIDIA Nemotron Speech 提供服务。

阶段 开发者意图 技能行为
设置 准备环境并检查访问权限 验证依赖项、凭据和烟雾测试
构建 创建配置文件特定的基准测试 收集专业上下文、提出术语、运行发音问答并生成清单
评估 在基准测试中测量 ASR 行为 运行转录并报告聚合和实体级指标
适应 根据故障模式提高 ASR 质量 Gates 在两个值 (优先级类别 KER > 0.3 和 manifest = 100 行) 之后进行微调,否则会路由返回构建以增长 manifest。使用现有的 NeMo 框架 对运行进行微调
重新评估 检查更改是否有助于 比较当前运行和先前运行,并推荐下一个周期
表 4. ASR 质量飞轮中的技能阶段

如何对 ASR 性能进行基准测试

飞轮仍然报告熟悉的 ASR 指标,但技能会将其作为决策信号。如果发音问答不完整,下一步可能是复习,而不是模型训练。如果实体错误集中在一个类别中,下一步可能是更具针对性的数据。如果所审查的术语始终存在错误,则调整可能是合理的。

指标 测量对象 技能运用
WER 整个句子的错误率 一般 ASR 质量信号
CER 字符错误率 用于长期临床诊断的接近缺失信号
KER 目标临床实体的关键字错误率 是否识别出工作流程关键术语的主要信号
SER 句子错误率 显示句子中是否出现任何错误
表 5. 评估技能报告的指标

在骨科实践模拟中,实体层面的指标明确了下一步:药物名称是最弱的类别,后续周期侧重于发音审查、额外的药物名称覆盖范围和模型适应性。结果并不是生产基准测试,而是展示了飞轮如何将临床 ASR 故障模式转化为具体的改进路径。

技能原生临床 ASR 质量飞轮的价值是什么?

合成音频不能取代真实的临床音频。这是一种创建目标压力测试的可控方式,特别是对于罕见术语,但生产验证仍然需要来自预期设置的真实音频。发音控制仍然需要人工审核。字典查找适用于许多医学术语,但并非每个术语都出现在可信字典中。自动发音建议可以加快审查速度,但如果不进行音频检查,则不应将其视为真实情况。

当前的基准测试很小。骨科实践模拟在少量生成样本上演示了飞轮。更有力的声明需要不公开的术语、更多的上下文、更多的演讲者、声音干扰、重复运行和真实的音频。清晰的音频性能还不够。临床环境包括警报器、重叠扬声器、口罩、远程医疗麦克风、房间混响、救护车噪音和听写伪影。下一个版本的基准测试应包括声学应力分布。

开始使用临床 ASR 智能体技能

临床 ASR 改进需要的不仅仅是一次性数据集或总分。您需要一个工作流程来帮助您定义临床概况、生成发音感知的合成音频、根据重要术语衡量 ASR 质量、适当调整模型,并重新评估结果。

本文中介绍的飞轮从简单的对话开始,到可重复的 ASR 飞轮结束。NVIDIA NeMo Data Designer 负责处理文本丰富层。Magpie TTS 多语种合成受发音控制的音频。兼容 NeMo 的清单连接了生成、评估、适应和报告。AI 智能体技能通过指导术语管理、IPA 评审、基准生成、评分和下一步决策,使流程可重复。

骨科实践模拟展示了工作流程模式:配置配置文件特定的术语列表,生成经过审核的合成音频,检查实体级错误,并决定下一步行动。更大的贡献是可重复的循环:配置文件驱动的基准测试、发音感知 TTS、明确的审查门和实体级评估。

准备好开始了吗?探索 NVIDIA 智能体技能,将临床 ASR 智能体工作流用作指南,以构建配置文件驱动的基准、查看发音、生成合成临床音频,并使用实体级指标评估 ASR 输出。

标签