开始使用 Nsight Systems
下载 NVIDIA Nsight Systems
Nsight Systems 2026.1.2 现已推出
查看支持的平台以便 NVIDIA Nsight™ Systems 为您的主机和分析目标选择正确的版本。
如果通过 CLI 进行分析,请根据 CLI 的运行位置选择您的平台。如果使用 GUI (完整版) 查看报告、进行分析或进行远程分析,请根据将运行 GUI 的主机 PC 架构选择您的平台。
另请查看系统要求然后下载。
桌面、工作站和服务器平台:
此下载用于 Windows 和 Linux 服务器、工作站和游戏 PC 的本地和远程分析。x86-64 架构支持分析。
请参阅支持的平台了解本地、远程和混合操作系统兼容性组合的详细信息。
Nsight Systems 2026.1.2 完整版
仅限 Nsight Systems 2026.1.2 CLI
Nsight Systems 2026.1.2 Arm 服务器和 NVIDIA Grace 完整版
Nsight Systems 2026.1.2 仅适用于 Arm 服务器和 NVIDIA Grace CLI
探索来自第三方供应商的 Nsight Systems 插件
插件可为第三方硬件和软件添加额外的数据提供程序。您可以将自己的数据引入 Nsight Systems。这可能是追踪和/ 或指标采样的组合。
Kubernetes 集成:
借助 Nsight Tools Sidecar Injector,NVIDIA Nsight 应用可以分析容器化应用 (目前仅使用 Nsight Systems) 。此解决方案使用 Kubernetes 动态权限控制器自动将以下内容添加到您的 Pod:init 容器、包含 Nsight Systems、其配置、环境变量和安全上下文的卷。
JupyterLab 集成:
借助 Nsight Tools JupyterLab 扩展程序,您可以在 Jupyter 中分析单元和 Notebook,包括使用完整的 Nsight Systems GUI 进行详细分析。
嵌入式和汽车平台:
Nsight Systems 作为 Jetson 开发套件的一部分捆绑在NVIDIA Jetpack™ SDK。
Nsight Systems 作为DRIVE OS用于在基于 NVIDIA DRIVE AGX™ 的智能汽车上进行开发和部署。
支持的平台
Nsight Systems 通过多个软件包分发。选择“Profiling Target” (性能分析目标) 列,了解可用于性能分析 (本地或远程) 以及查看报告的主机。
| 分析目标 | ||||||
|---|---|---|---|---|---|---|
| Linux 工作站和服务器 | Windows 工作站和游戏 PC | NVIDIA DPU 和 SuperNIC | Jetson 和 IGX | DRIVE | ||
| 从主机 | ||||||
| Windows | 远程 GUI 报告查看器 |
本地 CLI 和 GUI 远程 GUI › 报告查看器 |
远程 CLI 远程报告查看器 | 远程报告查看器 | 远程报告查看器 | |
| Mac | 远程 GUI 报告查看器 |
远程报告查看器 | 远程报告查看器 | 远程报告查看器 | 远程报告查看器 | |
| Linux | 本地 CLI 和 GUI 远程 GUI 报告查看器 |
远程 GUI 报告查看器 | 远程 CLI 远程报告查看器 | 远程 GUI 报告查看器 | 远程 GUI 报告查看器 | |
| DPU/ SuperNIC | 不适用 | 不适用 | 本地 CLI | 不适用 | 不适用 | |
| Jetson | 不适用 | 不适用 | 不适用 | 本地 CLI 和 GUI 报告查看器 | 不适用 | |
| DRIVE | 不适用 | 不适用 | 不适用 | 不适用 | 本地 CLI | |
* 仅适用于 x86-64 目标或从 CLI 收集的打开报告
** 仅适用于从 Windows 或 Linux PC 和版本相同或更低的服务器收集的报告
*** 仅适用于从 Jetson 或 DRIVEOS 收集的版本相同或更低的报告
系统要求
Nsight Systems 兼容 Windows 工作站和 PC、Linux 工作站和服务器,以及 Jetson 和 NVIDIA DRIVE 自主机器。在下方了解开发平台的系统要求和支持。
|
|
|
|
|
|
|---|---|---|---|---|
| 操作系统 | Windows 10 或更高版本 |
|
|
Jetson Linux DRIVE OS |
| 目标硬件 | GPU:Pascal 或更新版本 CPU:x86-64 处理器 |
GPU:Pascal 或更新版本 CPU:x86-64 处理器** |
GPU:Pascal 或更新版本 Arm-SBSA 服务器 |
NVIDIA IGX、Jetson AGX Orin、Jetson AGX Xavier、Jetson TX2、Jetson TX1、DRIVE AGX Orin、DRIVE AGX Pegasus、DRIVE AGX Xavier、DRIVE PX Parker AutoChauffeur、DRIVE PX Parker AutoCruise |
| 目标软件 | 仅限 64 位应用程序 用于 CUDA 追踪的 CUDA 10.0+ 驱动程序 418 或更高版本*** |
仅限 64 位应用程序 适用于 CUDA 追踪驱动程序 418 或更高版本的 CUDA 10.0**** |
仅限 64 位应用程序 适用于 CUDA 追踪驱动程序 418 或更高版本的 CUDA 10.0**** |
|
| 本地分析 | CLI 和 GUI | CLI 和 GUI | CLI 和 GUI | CLI (所有平台) 、GUI (仅限 Jetson Linux) |
| 远程分析 从平台 |
Windows 10 及以上 macOS 13 及以上 Ubuntu 20.04 及以上 |
Windows 10 及以上 macOS 13 及以上 Ubuntu 20.04 及以上 |
不适用 | Ubuntu 22.04 |
* 对于较早的操作系统版本,请使用 Nsight Systems 2020.3
** LBR 采样回溯需要 Intel Haswell 架构或更新版本
*** 驱动 535 及更新版本可提高 GPU 分析的稳定性。请使用最新的驱动以获得最佳结果。单击此处下载。
版本说明
2026.1.2
Highlights
- 支持 CUDA 13.2
- 对 MIG 的视频追踪支持
- Pytorch 分析改进 – 显示向前和向后扩展模块的形状和训练参数
- Python 采样 – 增加了对 Python 3.14 的支持
- GPUDirect Storage Metrics – 新选项,用于捕捉GPUDirect StorageDMA 操作。
-
WDDM Trace 新选项:WDDM Memory Trace
- 此选项会捕获一组重点突出的 WDDM 内存事件,以跟踪显存管理。这样可以减少开销并生成更小的报告文件,从而延长专注于 Windows 图形 VRAM 管理的追踪会话。
- 注意:WDDM 追踪的默认设置已更改,并且此新选项是 WDDM 追踪的新默认设置。
- ETW 追踪 – 为实施 TraceLogging 的 ETW 提供商增加支持
-
图形显存使用方法
- 支持 D3D12 放置和保留资源
- 支持 Vulkan 资源
- Vulkan 追踪 – 增加了对 VK_EXT_mesh_shader 扩展的支持
- 已从工具中删除 - nvprof CLI 选项。
-
导出更改
-
系统会从 CLI 和 GUI 中删除文本和 JSON 导出选项。使用这些选项 (例如。
nsys export --type=text ...或nsys profile --export=json ...) 将导致错误。在此版本中,可以通过设置NSYS_ENABLE_DEPRECATED_TEXT_EXPORT=1以及NSYS_ENABLE_DEPRECATED_JSON_EXPORT=1但请确保调整受影响的进程/ 脚本,因为在下一个版本中,这些选项将被完全删除。 -
与 JSON 导出选项不同,
jsonlines选项现已推出。同样,它会生成一个文本文件,其中每行包含一个 JSON 对象,但其格式与旧文件略有不同json导出。
-
系统会从 CLI 和 GUI 中删除文本和 JSON 导出选项。使用这些选项 (例如。
- NGC 上现已提供 NVIDIA Nsight Streamer 改进,可在远程无外设服务器上查看报告
-
适用于 Kubernetes 改进的 NVIDIA Nsight Operator – 即将在 NGC 上发布
- 单击此处了解详情并申请抢先体验功能
2026.1.1
Highlights
- Pytorch 分析改进 – 显示向前和向后扩展模块的形状和训练参数
- Python 采样 – 增加了对 Python 3.14 的支持
- GPUDirect Storage Metrics – 用于捕捉GPUDirect StorageDMA 操作。
-
WDDM 追踪新选项:WDDM 内存追踪
- 此选项会捕获一组重点突出的 WDDM 显存事件,以跟踪显存管理。这样可以减少开销并生成更小的报告文件,从而延长专注于 Windows 图形 VRAM 管理的追踪会话。
- 注意:WDDM 追踪的默认设置已更改,并且此新选项是 WDDM 追踪的新默认设置。
- ETW 追踪 – 为实施 TraceLogging 的 ETW 提供商增加支持
-
图形显存使用方法
- 支持 D3D12 放置和保留资源
- 支持 Vulkan 资源
- Vulkan 追踪 – 增加了对 VK_EXT_mesh_shader 扩展的支持
- 已从工具中删除 - nvprof CLI 选项。
-
导出更改
-
系统会从 CLI 和 GUI 中删除文本和 JSON 导出选项。使用这些选项 (例如。
nsys export --type=text ...或nsys profile --export=json ...) 将导致错误。在此版本中,可以通过设置NSYS_ENABLE_DEPRECATED_TEXT_EXPORT=1以及NSYS_ENABLE_DEPRECATED_JSON_EXPORT=1但请确保调整受影响的进程/ 脚本,因为在下一个版本中,这些选项将被完全删除。 -
与“JSON Export” ( JSON 导出) 选项不同
jsonlines选项现已推出。同样,它会生成一个文本文件,其中每行包含一个 JSON 对象,但其格式与旧文件略有不同json导出。
-
系统会从 CLI 和 GUI 中删除文本和 JSON 导出选项。使用这些选项 (例如。
- NGC 上现已提供 NVIDIA Nsight Streamer 改进,可在远程无外设服务器上查看报告
-
适用于 Kubernetes 改进的 NVIDIA Nsight Operator – 即将在 NGC 上发布
- 单击此处并申请抢先体验功能了解详情
2025.6.1
Highlights
-
CUDA 改进
- CUDA 版本兼容性更新
-
系统级 CUDA 追踪 – 添加
--cuda-trace-scope在追踪进程树或整个系统之间进行选择。 -
CUDA 主机函数跟踪 – 增加了对 CUDA Graph 主机函数节点和
cudaLaunchHostFunc()在主机上执行并阻止流。 -
CUDA 硬件追踪现在为默认设置,如果支持,则基于硬件的追踪现在为默认设置,如果出现各种冲突或不支持的情况,则会回退至软件。使用
--trace=cuda-sw强制切换到软件模式。 - 绿色上下文 SM 分配工具提示 - 绿色上下文行现在在工具提示中显示 SM 分配,以便更好地了解 GPU 资源。
- CPU 指标采样改进 – 增加了基于时间的多路复用。
-
NCCL 追踪改进
- 详细了解融合后的 GPU 内核中的操作。
- 关联一个集合操作的所有事件,正确连接 API 调用、运行时调度和 GPU 操作,甚至跨不同的线程、进程和 CUDA 图截取。
- Pytorch Trace 改进 – 添加了前向方法和训练参数。
- Python 采样改进 – 在时间轴工具提示和事件视图中更好地显示回溯。
-
显存使用方法
- 分析 Windows 图形资源分配、迁移、事件历史记录、分配调用堆栈和性能标记。
- 显示图形帧之间 Windows VRAM 驻留时间的差异。
- 插件 GUI 项目属性改进 – 为要应用到下一个分析会话的每个插件的配置添加 UI 控制。
- 适用于 Linux 的 Debuginfod 服务器 – 现在与 DEBUGINFOD_URLS 环境变量一起受支持。
- NGC 上现已提供 NVIDIA Nsight Streamer 改进,可在远程无外设服务器上查看报告
-
适用于 Kubernetes 改进的 NVIDIA Nsight Operator – 即将在 NGC 上发布
- 单击此处了解详情并申请抢先体验功能
2025.5.1
Highlights
-
Vulkan1.4 追踪
- Nsight Systems 的 Vulkan API 追踪已得到扩展,包含 Vulkan 1.4 标准和扩展集中的重要附加功能。
-
图形 2D 帧持续时间图表
- 帧持续时间图表 ( CPU 帧和 GPU 帧) 现在使用二维可视化,通过帧范围的水平长度以及帧矩形的垂直高度来表示时间轴上的帧持续时间。
- 这种图表设计使卡顿帧在周围帧时长范围之上变得“突出”。
-
Linux 文件访问方法
- 全面分析 Nsight Systems 报告中的文件访问模式和 I/ O 性能统计数据,支持跨不同机器的单个或多个分析进程。
- NGC 上现已推出 NVIDIA Nsight Streamer 改进,可在远程无外设服务器上查看报告
-
适用于 Kubernetes 的 NGC 即将发布 NVIDIA Nsight Operator 改进
- 单击此处了解详情并申请抢先体验功能
特征表
| 特征 | Linux 工作站和服务器 | Windows 工作站和游戏 PC | Jetson 自主机器 | DRIVE 智能汽车 |
|---|---|---|---|---|
| 查看跨 CPU 和 GPU 的系统级应用程序行为 | ||||
| CPU 核心利用率、进程和线程活动 | 是 | 是 | 是 | 是 |
| CPU 线程周期采样回溯 | 是* | 是 | 是 | 是 |
| CPU 线程阻塞状态回溯 | 是** | 是 | 是 | 是 |
| CPU 性能指标 | 是 | 否 | 是 | 是 |
| GPU 工作负载追踪 | 是 | 是 | 是 | 是 |
| GPU 上下文切换追踪 | 是 | 是 | 是 | 是 |
| SOC 服务器虚拟化平台追踪 | - | - | - | 是 |
| SOC 显存带宽采样 | - | - | 是 | 是 |
| SOC 加速器追踪 | - | - | Xavier* | Xavier* |
| 操作系统事件追踪 | ftrace | ETW | ftrace | ftrace、QNX 内核事件 |
| 研究 CPU 与 GPU 的交互及其中的空泡现象 | ||||
| 用户标注 API 追踪 NVIDIA 工具扩展程序 API (NVTX) |
是 | 是 | 是 | 是 |
| CUDA API | 是 | 是 | 是 | 是 |
| CUDA 库追踪 ( cuBLAS、cuDNN 和 TensorRT) | 是 | 否 | 是 | 是 |
| OpenGL API 追踪 | 是 | 是 | 是 | 是 |
| Vulkan API 追踪 | 是 | 是 | 否 | 否 |
| Direct3D12、Direct3D11、DXR 和 PIX API | - | 是 | - | - |
| OpenXR | - | 是 | - | - |
| OptiX | 7.1% | 7.1% | - | - |
| API 和 GPU 工作负载的双向相关性 | 是 | 是 | 是 | 是 |
| 识别 GPU 空闲和稀疏使用情况 | 是 | 是 | 是 | 是 |
| 多 GPU 图形追踪 | OpenGL 和 Vulkan | Direct3D12、OpenGL 和 Vulkan | - | - |
| 追踪 VRAM 和系统内存之间的图形资源迁移 | - | 是 | - | - |
| 为大数据做好准备 | ||||
| 能够在笔记本电脑上可视化超过 1000 万个事件的快速 GUI | 是 | 是 | 是 | 是 |
| 其他命令行收集工具 | 是 | 否 | 否 | 否 |
| NV-Docker 容器支持 | 是 | - | - | - |
| NVIDIA GPU Cloud 支持 | 是 | - | - | - |
| 最低用户权限级别 | 用户 | 管理员 | 根目录 | 根目录 |
* 基于 Intel Haswell 和更新的 CPU 架构
** 仅在启用操作系统运行时追踪的情况下使用。一些系统调用 (例如手工组装) 可能会被忽略。只有超过时间要求时,才会出现回溯。
档案
访问旧版本的 Nsight Systems Gameworks 下载中心。
查看旧版本发行说明 Nsight System 的文档存档。
资源
Nsight Systems 文档
您还可以单击此处了解如何安装和使用 NVIDIA Tools Extension API (NVTX)。
Nsight 工具教程中心
访问最新资源,开始使用 Nsight Systems。
获取自主培训
>。
通过 NVIDIA 深度学习培训中心提供的 Nsight Systems 自主在线课程获取 Nsight Systems 的实操培训 。
查看更多课程面向开发者的加速计算。
使用 OpenACC 加速计算的基础知识
了解如何分析应用程序以确定优化需求,以及使用 OpenACC 加速 C/ C++ 或 Fortran 应用程序的更多方法。
使用并发流加速 CUDA C++ 应用
构建稳健且高效的 CUDA C++ 应用,利用复制和计算重叠显著提升性能。
使用 CUDA C++ 跨多个 GPU 扩展工作负载
开发者稳健且高效的 CUDA C++ 应用,可利用单节点上的所有可用 GPU。
使用 Nsight 分析工具优化 CUDA 机器学习代码
使用 Nsight Systems 分析整个应用程序结构 Nsight Compute 分析和优化单个 CUDA 内核。
教程
使用 Nsight Systems 分析 GPU 应用程序
此网络会议概述了 NVIDIA 的 Nsight 分析工具。它探讨了如何分析和优化 GPU 加速应用程序的性能。
使用 Nsight Graphics 和 Nsight Systems 进行光线追踪开发的基础知识
了解如何利用 Nsight Graphics 和 Nsight Systems 配置和优化使用光线追踪的 3D 应用。
研究多节点工作负载的隐藏瓶颈
了解 Nsight Systems 如何帮助用户识别瓶颈、调查瓶颈原因,并为在多 GPU 多节点规模下工作的开发者提供支持。
使用 Nsight Systems 网络分析优化通信
了解如何使用 Nsight Systems 的网络分析功能,并了解实际应用如何利用 GPU、CPU 和网络硬件。
借助 CV-CUDA 克服 AI 成像和 CV 流程中的预处理和后处理瓶颈
观看如何使用 Nsight Systems 分析性能标记,并寻找适用于云规模 AI 的优化机会。
使用 NVIDIA Nsight 系统优化 HPC 仿真和可视化代码
NIH 大分子建模和生物信息学中心使用 Nsight Systems 将大型生物分子系统的分析性能提高了 3 倍。
视频系列
通过 CUDA 开发者工具教程系列了解如何使用 Nsight Systems 进行 CUDA 开发。
CUDA 开发者工具 | NVIDIA Nsight 工具生态系统
CUDA 开发者工具 | Nsight 系统简介
CUDA 开发者工具 | Nsight 系统简介
使用 NVIDIA Nsight Systems 优化 CUDA 显存分配
支持
要提供反馈、请求其他功能或报告支持问题,请访问开发者论坛。