NVIDIA Nsight Systems
NVIDIA® Nsight™ Systems 是一个系统级性能分析工具,专用于实现应用算法的可视化,以帮助您发现诸多优化机会,以及进行调优以便跨任意数量或大小的 CPU 和 GPU(从大型服务器到较小的 SoC)进行高效扩展。
概览
NVIDIA Nsight Systems是一款低开销性能分析工具,旨在为开发人员提供优化软件所需的洞察力。无偏差的活动数据可在工具中可视化,可帮助用户调查瓶颈,避免推断误报,并以更高的性能提升概率实现优化。用户将能够识别问题,例如 GPU 闲置、不必要的 GPU 同步、CPU 并行化不足,甚至其目标平台的 CPU 和 GPU 中意外昂贵的算法。它旨在跨各种 NVIDIA 平台进行扩展,例如:大型 Tesla 多 GPU x86 服务器、Quadro 工作站、支持 Optimus 的笔记本电脑、配备 Tegra+dGPU 多操作系统的 DRIVE 设备,以及 Jetson。NVIDIA Nsight Systems 甚至可以为 PyTorch 和 TensorFlow 等深度学习框架行为和负载提供宝贵见解;允许用户调整模型和参数,以提高单个或多个 GPU 的整体利用率。
平台
了解您平台上的 Nsight Systems:
版本亮点
2021.2 – 发布公告
- 图形和计算工作负载的 GPU 指标采样
- 在 CPU 和 GPU 上实现 CUDA 统一显存寻址错误追踪
- 网络追踪增强功能,增加了对 NCCL、NVSHMEM、OpenSHMEM 和 MPI fortran 的支持
2021.1 – 发布公告
- 支持 Vulkan 上的热门光线追踪游戏
- 用户体验和性能提升
2020.5 – 发布公告
- NVIDIA Ampere 架构
- Vulkan 光线追踪最终规格
- CUDA 显存分配追踪
- NCCL 追踪
- 用户体验改进
- 改进了选项高亮
- 支持高 DPI 显示器
2020.4 – 发布公告
- NVIDIA Ampere 架构
- CUDA 11.1
- CUDA 显存分配追踪
- 经过标记和颜色编码的 UVM 传输
- 启动 Nsight Compute 来分析从 Nsight Systems 中选择的内核
- Vulkan mGPU 和设备组
- 时间轴上的改进
- 统一的 OpenGL 工作量
- 帧时长统计
- 系统挂钟允许比较多个报告
- Windows 上的 CLI
- 用户体验改进
下载
可以直接在 Linux 工作站和服务器上(包括 NVIDIA DGX 系列)进行分析,也可以通过各种主机(Windows、Linux 或 MacOSX)进行远程分析。
了解其他目标平台。
文档
支持
要提供反馈、请求其他功能或报告支持问题,请使用开发者论坛。
系统要求
用于数据采集的受支持的目标操作系统:
- Ubuntu 16.04、18.04 和 20.04*
- CentOS 7+*
- Red Hat Enterprise Linux 7+* * 对于旧版操作系统,请使用 Nsight Systems 2020.3
受支持的目标硬件
- GPU:Pascal 或更新版本
- CPU:x86-64、Arm 服务器基础系统架构和 Power9 处理器* * Intel Haswell 架构或更新版本需要LBR 采样回溯
受支持的目标软件
- 仅限 64 位应用
- 用于 CUDA 追踪的 CUDA 10.0+
- 需要驱动 r418 或更新版本
用于数据可视化的受支持的主机操作系统:
- Windows 10+
- macOS X 10.9+
- Ubuntu 16.04、18.04 和 20.04
版本亮点
2021.2 – 发布公告
- 图形和计算工作负载的 GPU 指标采样
- Reflex SDK 追踪支持图形应用程序中的低延迟输入
2021.1 – 发布公告
- DirectX 和 Vulkan 支持热门光线追踪游戏
- Windows CLI 上的统计信息
- 用户体验和性能提升
2020.5 – 发布公告
- NVIDIA Ampere 架构
- Vulkan 光线追踪最终规格
- 用户体验改进
- 改进了选项高亮
- 支持高 DPI 显示器
2020.4 – 发布公告
- NVIDIA Ampere 架构
- CUDA 11.1
- CUDA 显存分配追踪
- 经过标记和颜色编码的 UVM 传输
- 启动 Nsight Compute 来分析从 Nsight Systems 中选择的内核
- Vulkan mGPU 和设备组
- 时间轴改进
- 统一的 OpenGL 工作量
- 帧时长统计
- 系统挂钟允许比较多个报告
- Windows 上的 CLI
- 用户体验改进
下载
可以直接在 Linux 工作站和服务器上(包括 NVIDIA DGX 系列)进行分析,也可以通过各种主机(Windows、Linux 或 MacOSX)进行远程分析。
Visual Studio Integration*需要安装 Nsights Sytems
了解其他目标平台。
文档
支持
要提供反馈、请求其他功能或报告支持问题,请使用开发者论坛。
系统要求
受支持的操作系统
- Windows 10
受支持的目标硬件
- GPU:Pascal 或更新版本
- CPU:x86-64 处理器
受支持的目标软件
- 仅限 64 位应用
- 用于 CUDA 追踪的 CUDA 10.0+
- 需要驱动 r418 或更新版本
版本亮点
2019.4
- Linux 上的 Ftrace 集合
- 事件表 – 时间轴数据的替代视图
- 改进了 CUDA 显存传输颜色方案
- Android 9 支持
- 扩展了输出能力
- 新数据源:线程信息、cuDNN、cuBLAS
2019.3
- 适用于长阻塞函数的 QNX 操作系统运行时回溯
- 适用于 SQLite 和 JSON 的输出工具
- NVTX、CUDA、OS Runtime Trace(OSRT)
下载
以下产品开发套件附带 Nsight Systems:
通过 via NVIDIA SDK Manager 下载 Jetson文档
支持
要提供反馈、请求其他功能或报告支持问题,请使用开发者论坛。
系统要求
受支持的目标硬件
- ShieldTV
- Jetson AGX Xavier、Jetson TX2、Jetson TX1
- DRIVE AGX Pegasus、DRIVE AGX Xavier、DRIVE PX Parker AutoChauffeur、DRIVE PX Parker AutoCruise
用于数据采集的受支持的目标操作系统:
- QNX
- Linux
- Android
用于数据可视化的受支持的主机操作系统:
- Ubuntu 16.04 和 18.04
特性
了解每个目标平台组的功能支持
工作站和服务器 |
工作站和游戏 PC |
自主机器 |
自动驾驶汽车 |
|
---|---|---|---|---|
查看跨 CPU 和 GPU 的系统级应用程序行为 | ||||
CPU 核心利用率、进程和线程活动 | ||||
CPU 线程周期性采样回溯 | ||||
CPU 线程阻止的状态回溯 | ||||
CPU 性能计数器采样 | ||||
GPU 应用追踪 | ||||
GPU 上下文切换追踪 | ||||
SOC 服务器虚拟化平台追踪 | ||||
SOC 内存带宽采样 | ||||
SOC 加速器追踪 | ||||
操作系统事件追踪 | ||||
研究 CPU-GPU 交互和泡泡 | ||||
用户注释 API 追踪 NVIDIA Tools Extension API (NVTX) |
||||
CUDA API | ||||
CUDA 库追踪(cuBLAS、cuDNN 和 TensorRT) | ||||
OpenGL API 追踪 | ||||
Vulkan API 追踪 | ||||
Direct3D12、Direct3D11、DXR 和 PIX API | ||||
OptiX | ||||
API 和 GPU 应用的双向相关性 | ||||
识别 GPU 空闲和稀疏使用情况 | 多 GPU 图形追踪 | |||
为大数据做好准备 | ||||
快速 GUI,能够在笔记本电脑上可视化超过 1000 万个事件 | ||||
其他命令行采集工具 | ||||
NV-Docker 容器支持 | ||||
NVIDIA GPU Cloud 支持 | ||||
最低用户权限级别 |
* 依托 Intel Haswell 和较新的 CPU 架构
** 仅启用操作系统运行时追踪。某些系统调用(例如手动组装)可能会丢失。只有在超过时间要求时,才会出现回溯。
用户评价
AWS
Deepset 与 AWS 和 NVIDIA 合作,可将训练 NLP 模型的速度提高 3.9 倍,成本降低 12.8 倍
Tracxpoint
我们注意到,新款 Quadro P6000 服务器在训练期间“闲置”,我们需要专家来为我们提供支持。NVIDIA Nsight Systems 帮助我们实现了 90% 以上的 GPU 利用率。之前训练深度学习模型需要 600 分钟,而现在只需 90 分钟。
Tracepoint 首席 AI 科学家 Felix Goldberg
NVIDIA
我使用 Nsight Systems 来分析我们的内部系统,并构建了一个计划来优化 CPU 和 GPU 占用率,最终为两者带来显著的性能和资源提升。总之,只有像 Nsight 这样的无可替代的工具,才能帮助我提取并确切了解资源使用情况所需的内容。
NVIDIA 系统软件工程师 Sang Hun Lee
伊利诺伊大学香槟分校大分子建模和生物信息学 NIH 中心
观看 John Stone 相关视频,了解他如何将 VMD(一种用于分析大型生物分子系统的热门工具)的性能提升了 3 倍。
相关媒体
2019.6 版本旨在为从高性能计算到视觉效果等各种市场提供更详细的数据采集、探索和采集控制。2019.6 推出了新的数据源,改进了视觉数据导航,扩展了 CLI 功能,扩展了输出覆盖范围和统计数据。
2019.4 版本旨在为从高性能计算到视觉效果等各种市场提供更详细的数据采集、探索和采集控制。2019.4 推出了新的数据源,改进了视觉数据导航,扩展了 CLI 功能,扩展了输出覆盖范围和统计数据。
观看伊利诺伊大学香槟分校大分子建模和生物信息学 NIH 中心的 John Stone 相关视频,讨论他如何将 VMD(一种用于分析大型生物分子系统的热门工具)的性能提升了 3 倍。
在无人机行业,主板的重量和尺寸很重要。借助 Stereolabs 的 ZED 立体相机,开发者可以 3D 方式拍摄,绘制高达 20 米的室内外场景的 3D 模型。借助外形小巧的 Jetson TX1,Stereolabs 可为越来越小的系统带来先进的计算机视觉功能。了解在无人机中结合使用这两项技术,为新的虚拟现实应用程序提供动力支持,可能会有何效果。
新的 NVIDIA 系统分析器简介。包括 NVIDIA Jetson 嵌入式平台上 NVIDIA 系统分析器的 UI 解决方案和设置详情。要下载和了解详情,请单击此处。
NVIDIA Nsight Systems 新增了支持在 CUDA 应用程序中追踪 NCCL(NVIDIA 集合通信库)占用率。要下载和了解详情,请单击此处。
NVIDIA® Nsight™ Systems 是不可或缺的系统级性能分析工具,旨在帮助开发者跨 CPU 和 GPU 调整和扩展软件。要下载和了解详情,请单击此处。