NVIDIA Riva

NVIDIA Riva 是一款用 GPU 加速的 SDK,可针对您的使用案例构建定制的实时语音 AI 应用。

立即下载入门资源

优势

先进的 AI

NVIDIA 历经十年的 AI 创新之作,涵盖了硬件、模型基础架构、训练技术、推理优化和部署解决方案。

可完全自定义

无论是修改模型体系架构,利用您的数据对模型进行微调,还是自定义工作流,以及在任意平台部署 AI,每一步都可灵活处理。

优越的性能

从模型到软件再到硬件,整个栈的持续优化使性能相比上一代提升了 12 倍。


出色的语音 AI

随着基于语音的应用在全球广泛使用,解决方案需要跨多种语言与人类进行交互。语音 AI 应用需要识别行业特定术语,并作出自然的实时响应。Riva 包含先进的自动语音识别 (ASR) 和文字转语音 (TTS) 功能,且实时运行。

试用 Riva 自动语音识别


NVIDIA Riva 自动语音识别提供高度精确的实时转录。

您可以通过麦克风进行录音,或从您的设备上传 .wav 格式的文件。

每个演示的持续时间不超过 30 秒。


同意这些使用条款后方可使用本功能。您的数据将用于改进 NVIDIA 的产品和服务。

试着说点什么

特定领域的自动语音识别

可调节的
文字转语音




NVIDIA Riva 是什么?

简单的端到端语音工作流程


您可从 NVIDIA NGC™ 目录中选择预训练的语音模型,在自定义数据集中使用 TAO 工具套件 对模型进行微调,将特定领域模型的开发速度提升 10 倍。

使用 Helm charts 仅需一条命令,TAO 模型即可轻松导出、优化和部署为本地或云端的语音服务。

Riva 的高性能推理通过 NVIDIA TensorRT™ 优化获得助力,并使用 NVIDIA Triton™ 推理服务器提供支持。

Riva 服务可作为基于 gRPC 的微服务提供,用于低延迟流式传输,以及高吞吐量的离线用例。

Riva 已完全容器化,可以轻松扩展到数百和数千个并行流。

convai-riva-pipeline

图 1:使用预训练模型、TAO 工具套件和 Riva 训练和部署端到端对话式 AI 制作流程。

自动语音识别


convai-riva-pipeline
图 2:自动语音识别制作流程

Riva 提供开箱即用的卓越自动语音识别 (ASR),可针对任何领域或部署平台进行定制。

该服务可处理成百上千个音频流输入,并以尽可能低的延迟返回流式转录文稿。

Riva 制作流程基于各种特定于领域的数据进行训练,并且可以针对不同的语言、口音、区域、词汇和上下文进行进一步调整。

端到端流程经过 GPU 优化,包含可定制的特征提取、解码、标点符号、声音和语言模型。

主要功能包括:

  • 适用于不同部署环境的多个模型架构
  • 在 NVIDIA DGX 上训练了成百上千小时的模型
  • 支持英语、西班牙语、德语和俄语
  • 自动标点符号
  • 字词级时间戳
  • 反向文本标准化,提高输出内容的可读性
  • TensorRT 优化可更大限度地减少延迟并更大限度地提高吞吐量
  • 针对 A100、V100 和 T4 GPU 进行了优化

文字转语音



Riva 提供模仿人类的文字转语音 (TTS) 神经声音,这些声音使用先进的频谱图生成和声码器模型。Riva 制作流程经过自定义和优化,可在 GPU 上高效实时运行。

Riva TTS 将原始文本作为输入内容,在流式传输模式下或在批量模式下的整个序列末尾生成后,即可返回音频区块。

Riva 定制语音功能使任何企业只需提供 30 分钟的数据,即可为其品牌、虚拟助理或呼叫中心创建独特的语音。

使用 Riva 创建新语音需要在 A100 GPU 上进行不到一天的训练,而使用替代技术则需要数周时间。

主要特征:

  • SOTA 模型生成富有表现力的神经声音
  • 借助强大的制作流程,能够轻松微调语音和口音
  • 对语音音高和表达持续时间的精细控制
  • 推理性能比现有技术高 12 倍
  • TensorRT 优化可更大限度地减少延迟并更大限度地提高吞吐量
  • 支持 A100、V100 和 T4 GPU
convai-riva-custom-voice-tt
图 3:文字转语音制作流程

Riva Enterprise

NVIDIA 针对大规模部署和全方位服务支持提供 Riva Enterprise。

了解详情

客户案例

RingCentral

借助 NVIDIA Riva,RingCentral 在视频会议方面实现了超高的实时转录准确性,为全球数百万使用特定领域术语且口音各异的用户提供服务。

了解详情
T-mobile

T-Mobile 使用 NVIDIA Riva ASR 准确转录客户对话,并为代理提供实时建议,从而快速解决客户的问题。

了解详情
Tarteel AI

Tarteel 使用 NVIDIA Riva 和 NVIDIA NeMo 规模化提供关于《可兰经》朗诵的实时反馈,使穆斯林教徒、讲师、内容创作者和研究人员能够与《可兰经》开展互动。

了解详情
Data Monsters 使用 NVIDIA Riva ASR

Data Monsters 使用 NVIDIA Riva 为 Plabook 应用添加了语音流程帮助学生阅读,准确到每个音素,并提供个性化反馈。

了解详情
Floatbot

Floatbot 利用 NVIDIA Riva 和 NVIDIA TAO 开发定制的新加坡英语语音 AI 应用,帮助全球的保险公司和金融科技客户实现呼叫中心自动化。

了解详情

资源


介绍性博客

了解 Riva 中帮助您构建语音 AI 服务的主要功能。

阅读博客

入门套件

获取使用 NVIDIA Riva 开发语音 AI 所需的套件:教程、Jupyter notebook 和文档。

开始使用

网络会议

了解如何构建提供出色准确性的同时可在数千流中实时运行的语音 AI 应用。

立即观看

可从 NVIDIA NGC 目录中获取 NVIDIA Riva,供 NVIDIA 开发者项目成员使用。

开始使用