优势
先进的 AI
NVIDIA 历经十年的 AI 创新之作,涵盖了硬件、模型基础架构、训练技术、推理优化和部署解决方案。
可完全自定义
无论是修改模型体系架构,利用您的数据对模型进行微调,还是自定义工作流,以及在任意平台部署 AI,每一步都可灵活处理。
优越的性能
从模型到软件再到硬件,整个栈的持续优化使性能相比上一代提升了 12 倍。
出色的语音 AI
随着基于语音的应用在全球广泛使用,解决方案需要跨多种语言与人类进行交互。语音 AI 应用需要识别行业特定术语,并作出自然的实时响应。Riva 包含先进的自动语音识别 (ASR) 和文字转语音 (TTS) 功能,且实时运行。
试用 Riva 自动语音识别
NVIDIA Riva 自动语音识别提供高度精确的实时转录。
您可以通过麦克风进行录音,或从您的设备上传 .wav 格式的文件。
每个演示的持续时间不超过 30 秒。
同意这些使用条款后方可使用本功能。您的数据将用于改进 NVIDIA 的产品和服务。
特定领域的自动语音识别
可调节的
文字转语音
NVIDIA Riva 是什么?
简单的端到端语音工作流程
您可从 NVIDIA NGC™ 目录中选择预训练的语音模型,在自定义数据集中使用 TAO 工具套件 对模型进行微调,将特定领域模型的开发速度提升 10 倍。
使用 Helm charts 仅需一条命令,TAO 模型即可轻松导出、优化和部署为本地或云端的语音服务。
Riva 的高性能推理通过 NVIDIA TensorRT™ 优化获得助力,并使用 NVIDIA Triton™ 推理服务器提供支持。
Riva 服务可作为基于 gRPC 的微服务提供,用于低延迟流式传输,以及高吞吐量的离线用例。
Riva 已完全容器化,可以轻松扩展到数百和数千个并行流。
自动语音识别
Riva 提供开箱即用的卓越自动语音识别 (ASR),可针对任何领域或部署平台进行定制。
该服务可处理成百上千个音频流输入,并以尽可能低的延迟返回流式转录文稿。
Riva 制作流程基于各种特定于领域的数据进行训练,并且可以针对不同的语言、口音、区域、词汇和上下文进行进一步调整。
端到端流程经过 GPU 优化,包含可定制的特征提取、解码、标点符号、声音和语言模型。
主要功能包括:
- 适用于不同部署环境的多个模型架构
- 在 NVIDIA DGX 上训练了成百上千小时的模型
- 支持英语、西班牙语、德语和俄语
- 自动标点符号
- 字词级时间戳
- 反向文本标准化,提高输出内容的可读性
- TensorRT 优化可更大限度地减少延迟并更大限度地提高吞吐量
- 针对 A100、V100 和 T4 GPU 进行了优化
文字转语音
Riva 提供模仿人类的文字转语音 (TTS) 神经声音,这些声音使用先进的频谱图生成和声码器模型。Riva 制作流程经过自定义和优化,可在 GPU 上高效实时运行。
Riva TTS 将原始文本作为输入内容,在流式传输模式下或在批量模式下的整个序列末尾生成后,即可返回音频区块。
Riva 定制语音功能使任何企业只需提供 30 分钟的数据,即可为其品牌、虚拟助理或呼叫中心创建独特的语音。
使用 Riva 创建新语音需要在 A100 GPU 上进行不到一天的训练,而使用替代技术则需要数周时间。
主要特征:
- SOTA 模型生成富有表现力的神经声音
- 借助强大的制作流程,能够轻松微调语音和口音
- 对语音音高和表达持续时间的精细控制
- 推理性能比现有技术高 12 倍
- TensorRT 优化可更大限度地减少延迟并更大限度地提高吞吐量
- 支持 A100、V100 和 T4 GPU