NVIDIA AI for Media
NVIDIA AI for Media(原 NVIDIA Maxine)是一个面向媒体与娱乐工作流的 AI 开发平台,提供 SDK 和云原生微服务,用于增强音频、视频和增强现实效果。基于 NVIDIA AI 平台,AI for Media 让开发者能够在本地或云端,为实时 AI 音视频处理流水线提供工作室级音质和高分辨率视频增强与特效。针对超低延迟场景进行优化,NVIDIA AI for Media 支持内容创作、直播、广播及远程制作等流程,可部署在本地数据中心、云端或边缘侧。
借助 NVIDIA AI Enterprise 组件之一的 NVIDIA NIM™,开发者可以通过易用的微服务访问 AI for Media 的各项能力,实现在云环境、数据中心和工作站上的安全、稳定且高性能的部署。
优势
出色的 AI 功能
适用于媒体的 NVIDIA AI 为开发者提供出色的预训练模型,以部署出色的增强现实、音频和视频质量功能。
实时 AI 性能
适用于媒体的 AI 包括经过加速和优化的 AI 功能,可在 NVIDIA RTX™ GPU 上进行实时推理,从而实现低延迟音频、视频和增强现实 (AR) 效果,并实现高网络弹性。
完整的 AI 工作流
Maxine 提供了一个开发者平台,其中包含多个链接在一起的低延迟效果的完整音频和视频增强管线。
多云、可定制的部署
Maxine 的云原生微服务可实现灵活、快速的部署和更新。
用例
直播
AI for Media 提供许多超低延迟的 AI 处理功能,可实时增强音频和视频质量,即使在动态、带宽受限的环境中也是如此。借助 AI for Media,现场创作者和制作团队能够清理音频、升级和重新调整视频,并应用实时视觉效果,同时保持始终如一的空气质量。AI for Media 支持交互式、高吞吐量的流式传输工作流,可跨本地、云和边缘部署进行扩展,确保为全球受众提供优质的直播体验。
专业广播
AI for Media 为广播和 IP 制作带来实时、AI 驱动的增强功能。它通过语音处理、视觉增强和扬声器智能来提高音频和视频质量。AI for Media 支持 ST 2110,集成 NVIDIA Holoscan for Media,并可在现代软件定义基础设施上实现可靠且具扩展性的 AI 部署。
内容创作
借助 RTX 加速的 AI,AI for Media 可改善音频、视频和视觉效果,从而增强内容创作工作流。无需专业设备或复杂的后期制作,即可提高语音清晰度、消除噪音、增强视频分辨率并添加 AR 功能。ISV 将 NVIDIA AI for Media SDK 和微服务集成到其创作者工具和平台中,加速用户为社交、营销和数字媒体渠道制作高质量内容的速度。
适用于媒体的 AI 有哪些新变化?
易于使用的微服务和 SDK,专为跨云、数据中心、RTX 工作站和 RTX PC 进行安全、可靠的高性能部署而设计:
重制 NIM (gRPC)
重新照明使用 AI 生成的 HDRI 在实时或录制的视频中重新照亮人物,以匹配目标照明条件,同时保持真实感、纹理质量和摄像头外观。它将移动的主体自然地集成到复杂的环境中,并作为适用于媒体 NIM 的 NVIDIA AI 提供。
合成视频检测器 NIM (gRPC)
合成视频检测器可高度准确地检测未压缩和压缩内容上的 AI+ 生成视频,从而在 NVIDIA RTX GPU 上实时生成结果。为了优先考虑安全性,它有意偏向于假阳性而非假阴性。
Lip Sync NIM ( gRPC 和 ST 2110)
Lip+ Sync ST 2110 NIM 可在基于 IP 的直播视频管线中同步唇部动作与语音。它专为 NVIDIA Holoscan for Media 环境中的实时配音工作流而设计。
主动扬声器检测 NIM ( gRPC 和 ST 2110)
ASD ST 2110 为 IP 视频直播工作流提供多扬声器检测和识别功能。它在 NVIDIA Holoscan for Media 中实现了实时演讲者标记和对话功能。
即将于 2026 年春季推出
LipSync
LipSync 是一种生成模型,可修改图像中的嘴部动作,使其与已翻译的语音或新语音相匹配,同时保留头部姿态、背景和图像质量。您可以通过 NVIDIA AI for Media AR SDK 抢先体验。
RTX 视频超分辨率
RTX 视频超分辨率可利用 AI 将 16:9 的视频分辨率从 480p 提升至 8K,用户可以控制清晰度、模糊、降噪和幻觉限制。该模型可以进行微调,以获取源内容,并在 NVIDIA AI for Media 中运行。也可作为 Python Wheel 使用。
即将于 2026 年春季推出
3D 身体姿态
3D Body Pose 是一种无标记且单一* 摄像头的 NIM,可通过骨骼追踪输出全身 3D 动画。无需专用硬件,即可实现逼真的身体动作捕捉。
音频效果 SDK
Audio Effects SDK 支持实时广播音频增强功能,包括降噪和室内回声消除、音频超分辨率和声学回声消除,从而提高各种录制环境中的语音清晰度和整体音质。
Video Effects SDK
Video Effects SDK 使用 GPU 驱动的 Tensor Core 来加速视频处理,并提供 AI 绿屏、背景模糊、超分辨率、Upscale、网络摄像头降噪和视频重照明等滤镜,以增强实时视频效果并提高质量。
增强现实 SDK
增强现实 SDK 支持实时面部和身体追踪、地标检测、目光接触调整、面部表情估计和 LipSync,由 NVIDIA GPU 提供支持,可加速性能,支持各种 AR、动画和建模应用。
开始使用适用于媒体的 NVIDIA AI
在 API Catalog 中体验
对于希望体验 Maxine NIM 微服务的个人而言,API Catalog 提供了一个基于 UI 的游乐场,并可免费访问 NVIDIA 管理的 API 端点,作为良好的起点。
先试后买
AI for Media 是 NVIDIA AI Enterprise 的一部分,可为生产就绪型 AI 提供企业级安全性、支持和稳定性。申请免费评估许可证,试用 90 天。
抢先体验新功能
根据用例和基础架构适合度,此计划面向数量有限的申请人。
适用于媒体的 NVIDIA AI 学习库
探索更多适用于媒体的 AI 模型,以增强您的媒体管线。