开发与优化

2025年 11月 13日

通过 Python API 利用 CuTe DSL 实现 CUTLASS C++ 级性能

CuTe，是 CUTLASS 3.x 的核心组件，它提供了统一的代数体系，用于描述数据布局和线程映射，

4 MIN READ

2025年 11月 10日

使用 NVIDIA Grove 简化 Kubernetes 上的复杂 AI 推理

NVIDIA Dynamo 的新组件实现分布式推理的高效扩展

2 MIN READ

2025年 11月 10日

如何将数学问题的推理速度提升 4 倍

大语言模型能够解决具有挑战性的数学问题。然而，若要实现其大规模高效运行，仅依靠一个强大的模型检查点还远远不够。

3 MIN READ

2025年 11月 10日

构建可扩展且容错的 NCCL 应用

NVIDIA 集合通信库（NCCL）提供了一套面向低延迟和高带宽通信的集合操作 API，支持 AI 工作负载从单台主机上的少量 GPU…

5 MIN READ

2025年 11月 7日

使用 ComputeEval 2025.2 对 AI 生成的 CUDA 代码进行 LLM 基准测试

AI 编码助手能否编写高效的 CUDA 代码？为了更准确地衡量并提升其能力，我们构建了 ComputeEval，一个可靠且开源的基准测试工具，

1 MIN READ

2025年 11月 6日

利用 NVIDIA cuVS 加速 Faiss 中的 GPU 向量搜索

随着企业收集的非结构化数据日益增多，并更加广泛地应用大语言模型（LLM），对更高效、更具可扩展性系统的需要也愈发迫切。

5 MIN READ

2025年 11月 4日

如何使用 OpenFold3 NIM 预测生物分子结构

几十年来，生物学中最深奥的谜题之一，便是氨基酸链如何自发折叠成复杂而精密的生命结构。尽管研究人员精心构建了各种模拟与统计模型，

2 MIN READ

2025年 10月 24日

NVIDIA DGX Spark 的性能如何支持密集型 AI 任务

当今，要求严苛的 AI 开发者工作负载通常需要比台式电脑所能提供的内存更多，也往往需要访问笔记本电脑或 PC 所不具备的软件，

2 MIN READ

2025年 10月 24日

通过 cuBLAS 中的浮点仿真释放 Tensor Core 性能

NVIDIA CUDA-X 数学库提供基础的数值计算模块，帮助开发者在人工智能和科学计算等多个高性能计算领域中部署加速应用程序。

3 MIN READ

2025年 10月 14日

借助 NVIDIA Parabricks 提高变体识别准确性

NVIDIA Parabricks 是一款专为数据科学家和生物信息学家设计的可扩展基因组学软件套件，专注于基因数据的二级分析。

3 MIN READ

2025年 10月 14日

借助 QuTip 和 scQubits 中的 NVIDIA cuQuantum 集成加速量子位研究

NVIDIA cuQuantum 是一个软件开发工具包（SDK），可加速电路级（数字）和器件级（模拟）的量子模拟。

2 MIN READ

2025年 10月 7日

使用 NVIDIA TensorRT Model Optimizer 剪枝和蒸 LLM

大语言模型（LLM）在自然语言处理（NLP）任务，如代码生成、推理和数学计算等方面，展现出卓越的性能，树立了新的标杆。然而，

3 MIN READ

2025年 9月 29日

释放 GPU 性能：CUDA 中的全局内存访问

管理内存是编写 GPU 内核时影响性能的关键因素之一。本文将为您介绍全局内存及其对性能影响的重要知识。 CUDA 设备上存在多种类型的显存，

4 MIN READ

2025年 9月 23日

使用 NVIDIA TAO 6 和 NVIDIA DeepStream 8 构建实时视觉检测工作流

构建可靠的视觉检测流程以实现缺陷检测和质量控制并非易事。制造商和开发者常常面临诸多挑战，例如针对特定领域定制通用视觉 AI 模型、

3 MIN READ

2025年 9月 10日

开发者现在可以直接从自己喜欢的第三方平台下载 CUDA

对开发者而言，构建和部署应用往往充满挑战，需要协调软件与硬件功能之间的复杂关系。确保每个基础软件组件不仅正确安装，而且版本符合要求，

1 MIN READ

2025年 9月 10日

借助 NVIDIA Rivermax 和 NEIO FastSocket，更大限度地提高金融服务的低延迟网络性能

超低延迟与可靠的数据包传输是金融服务、云游戏以及媒体和娱乐等现代应用的关键需求。在这些领域中，

2 MIN READ