面向开发者的 NVIDIA NeMo Curator
NVIDIA NeMo™Curator 通过大规模处理用于训练和定制的文本、图像和视频数据,提高生成式 AI 模型的准确性。它还提供用于生成合成数据的预构建流程,以定制和评估生成式 AI 系统。
借助 NeMo Curator(作为 NVIDIA NeMo 软件套件的一部分,用于管理 AI 智能体全生命周期),开发者可以为包括金融、零售、制造和电信等在内的各类行业策划高质量数据,并训练高精度的生成式 AI 模型。
NeMo Curator 搭配 NeMo microservices,可帮助开发者构建 data flywheels(数据飞轮),并持续优化生成式 AI 智能体,从而提升终端用户的整体体验。
NVIDIA NeMo Curator 的工作原理
NeMo Curator 可将数据下载、提取、清理、质量过滤、重复数据删除、混合或混洗等数据处理任务简化为 Pythonic API,使开发者能够更轻松地构建数据处理流程。通过 NeMo Curator 处理的高质量数据,您可以使用更少的数据实现更高的准确性,并加快模型收速度,从而减少训练时间。
NeMo Curator 支持文本、图像和视频模式的处理,并且可以将数据扩展至 100 PB 以上。
NeMo Curator 提供可定制的模块化界面,允许您为数据处理流程选择构建块。请参阅下方的架构图,了解如何构建数据处理工作流。
文本数据管护
此架构图展示了可用于处理文本的各种功能。总体而言,典型的文本处理工作流首先从公共来源或私有存储库下载数据,然后执行清理步骤,例如修复 Unicode 字符。接下来,应用启发式过滤器 (例如词数统计),然后使用分类器模型质量和领域,最后是数据混合。
合成数据生成
NeMo Curator 提供了一套简单易用的工具,可让您使用预构建工具合成数据生成管道或构建自己的管道。任何使用 OpenAI API 的模型推理服务都与合成数据生成模块兼容,允许您从任何模型生成数据。
NeMo Curator 提供适用于多个用例的预构建工作流,帮助您轻松入门,包括提示生成 (开放式问答、封闭式问答、编写、数学/编码)、合成两回合提示生成、对话生成和实体分类。
视频数据处理
此架构图展示了抢先体验计划用于处理高质量视频的各种功能。通过 Cosmos 平台,可以使用过滤后的视频来训练或微调 WFM。
典型的管道包含以下步骤
- 视频解码和分割:对长视频进行解码,并将其拆分成语义更短的视频片段。
转码:将所有短视频转换为一致的格式。
添加说明:使用特定领域的先进视觉语言模型 (VLM) 来描述视频片段的说明。
- 文本嵌入:为下游语义搜索和重复数据消除创建文本描述的嵌入。
音频数据处理
此架构图展示了可用于音频处理的各类功能。
一个典型的数据管道包含以下步骤
数据下载与提取:从云端、互联网或本地磁盘等多种来源获取音频文件。
语音转文本推理:利用 NeMo ASR 模型并借助 GPU 加速实现音频转写。
指标计算(词错误率 WER):计算词错误率以评估转写准确率。
获取音频时长:提取每个文件的时长元数据。
基于特征的过滤:通过 WER 和时长阈值筛选样本。
元数据转换:将整理后的输出结果转换为文档格式,并以 JSONL 方式导出。
图像数据处理
此架构图展示了可用于处理图像的各种功能。
典型的工作流首先需要下载 WebDataset 格式的数据集,然后创建 CLIP 嵌入。接下来,使用 NSFW 和 Aesthetic 滤镜对图像进行高质量过滤。然后,使用语义重复数据删除重复图像,最后创建高质量数据集。
入门资源
开始使用 NVIDIA NeMo Curator 的方法
使用合适的工具和技术为 LLM 训练生成高质量数据集。
性能
NeMo Curator 利用 NVIDIA RAPIDS™ 库(如 cuDF、cuML 和 cuGraph)及 Ray,将工作负载扩展至多节点、多 GPU 环境,大幅缩短数据处理时间。对于视频处理,它结合使用硬件解码器 (NVDEC) 和硬件编码器 (NVENC) 以及 Ray 来避免瓶颈并确保高性能。与替代方案相比,借助 NeMo Curator,开发者可以将文本处理速度提高 16 倍,将视频处理速度提高 89 倍。请参阅以下图表,了解更多详情。
使用 NeMo Curator 将视频处理速度从几年缩短到几天
2000 万小时视频的处理时间
借助 NeMo Curator,文本处理速度提高 16 倍
RedPajama-v2 子集的模糊复制处理时间 (8 TB)
“关闭”:使用领先的备用库在 CPU 上处理的数据
入门套件
通过访问以下资源教程,最佳实践和文档各种用例,开始使用 NeMo Curator 开发您的生成式 AI 应用。
文本处理
利用重复数据消除、质量过滤和合成数据生成等功能处理高质量文本数据。
NVIDIA NeMo Curator 学习资源库
NVIDIA NeMo Curator 客户
更多资源
合乎道德的 AI
NVIDIA 的平台和应用框架使开发者能够构建各种 AI 应用。选择或创建所部署的模型时,请考虑潜在的算法偏差。与模型的开发者合作,确保模型满足相关行业和用例的要求;提供必要的说明和文档以了解错误率、置信区间和结果;并确保模型的使用条件和方式符合预期。
开启 NVIDIA NeMo Curator。



