开发工具与技巧
2026年 2月 9日
借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化自动化
NVIDIA TensorRT LLM 使开发者能够为大语言模型 (LLM) 构建高性能推理引擎,但传统上部署新架构往往需要大量手动工作。
3 MIN READ
2026年 2月 4日
如何使用 Nemotron 为 RAG 构建文档处理流程
如果您的 AI 智能体能够像读取文本文件一样轻松地即时解析复杂的 PDF、提取嵌套表格并“查看”图表中的数据,该怎么办?
3 MIN READ
2026年 1月 30日
使用通用稀疏张量建立可扩展的稀疏生态系统
稀疏张量是向量、矩阵以及高维数组在包含大量零元素情况下的推广形式。由于其在存储、计算和功耗方面的高效性,稀疏张量在科学计算、
5 MIN READ
2026年 1月 30日
借助 CUDA Tile IR 后端推进 OpenAI Triton 的 GPU 编程
NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,
2 MIN READ
2026年 1月 27日
通过开放式即插即用产品加速扩散模型
大规模扩散模型的近期进展深刻改变了生成式 AI 在多个领域的应用,涵盖图像合成、音频生成、3D 素材创建、分子设计等。
2 MIN READ
2026年 1月 26日
如何使用 NVIDIA Earth-2 解锁粗略气候投影的局部细节
全球气候模型擅长大局把握,但飓风和台风等局部极端气候现象往往在细节中被忽略。这些现象依然存在,只需借助合适的工具,
3 MIN READ
2026年 1月 21日
使用 Single Call API 简化 CUB
C++ 模板库 CUB 提供了高性能 GPU 基元算法,但其将内存估计与分配分离的传统“两阶段”API 可能带来使用上的不便。
2 MIN READ
2026年 1月 14日
如何在 NVIDIA CUDA Tile 中编写高性能矩阵乘法
本博文是系列课程的一部分,旨在帮助开发者学习 NVIDIA CUDA Tile 编程,掌握构建高性能 GPU 内核的方法,
5 MIN READ
2026年 1月 13日
了解 NVIDIA cuOpt 如何通过原始启发式算法加速混合整数优化
NVIDIA cuOpt 是一款 GPU 加速的优化引擎,旨在为大规模复杂决策问题提供高效、高质量的解决方案。 混合整数规划(MIP)…
2 MIN READ
2026年 1月 9日
构建支持本地化交互体验的 AI 产品目录系统
电子商务目录通常包含稀疏的产品数据、通用图像、基础标题和简短说明,这限制了产品的可发现性、用户参与度以及转化率。手动扩充难以规模化,
3 MIN READ
2026年 1月 9日
多智能体仓库 AI 命令层实现卓越运营和供应链智能
仓库的自动化程度从未如此之高,数据也从未如此丰富,运营要求同样日益提升,但许多仓库仍依赖于无法跟上需求的系统。吞吐量持续攀升,
2 MIN READ
2026年 1月 9日
重塑大模型内存:以上下文为训练数据,实现测试时学习
我们在新闻中不断看到拥有更大上下文窗口的大型语言模型(LLM),它们承诺能够同时查看完整的对话历史、大量书籍或多个代码库。然而,
1 MIN READ
2026年 1月 8日
NVIDIA TensorRT Edge-LLM 加速汽车与机器人领域的 LLM 和 VLM 推理
大语言模型(LLM)与多模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话式 AI 智能体、
2 MIN READ
2026年 1月 5日
开源 AI 工具升级加速 NVIDIA RTX PC 上的 LLM 和扩散模型
在小语言模型(SLM)和扩散模型(例如 FLUX.2、GPT-OSS-20B 和 Nemotron 3 Nano)质量持续提升的推动下,
3 MIN READ
2025年 12月 17日
利用 NVIDIA Aerial Omniverse 数字孪生精准模拟无线电环境
5G 和 6G 的发展需要高保真无线电信道建模,但当前生态系统高度分散。链路级模拟器、网络级模拟器与 AI 训练框架通常采用不同的编程语言,
5 MIN READ
2025年 12月 17日
利用 Aether 项目将 Apache Spark 工作负载在 Amazon EMR 上大规模迁移至 GPU
数据是现代业务的燃料,但依赖基于 CPU 的 Apache Spark 管道 会带来高昂的成本。这些系统天生速度较慢,需要庞大的基础设施,
3 MIN READ