Blackwell
2025年 12月 17日
使用 NVIDIA cuDSS 解决大规模线性稀疏问题
随着芯片设计、制造和多物理场仿真复杂性的持续提升,在电子设计自动化(EDA)、
5 MIN READ
2025年 12月 16日
使用 NVIDIA CUDA MPS 无需修改代码即可提升 GPU 显存性能
NVIDIA CUDA 开发者可以利用多种工具和库来简化开发与部署,使用户能够专注于应用程序的“内容”和“方式”。 多进程服务 (MPS)…
5 MIN READ
2025年 12月 16日
使用 Skip Softmax 加速 NVIDIA TensorRT-LLM 中的长上下文推理
对于大规模部署 LLM 的机器学习工程师来说,这个等式既熟悉又无情:随着上下文长度的增加,注意力计算成本呈爆炸式增长。
4 MIN READ
2025年 12月 15日
利用 NVIDIA MGX 为未来数据中心提供灵活高效性能
重塑计算格局的 AI 热潮将在 2026 年进一步加速扩展。随着模型能力与计算能力的突破持续推动发展,
2 MIN READ
2025年 12月 12日
如何在现代 NVIDIA GPU 架构上扩展快速里叶变换以实现百亿亿次级计算
快速里叶变换 (FFT) 广泛应用于科学计算,涵盖分子动力学、信号处理、计算流体动力学 (CFD)、无线多媒体以及机器学习等领域。
4 MIN READ
2025年 12月 8日
使用 NVFP4 KV 缓存优化大批次与长上下文推理
量化是大规模推理中的关键手段之一。通过降低权重、激活值和KV缓存的精度,可以有效减少内存占用和计算开销,从而显著提升推理吞吐量、降低延迟,
3 MIN READ
2025年 12月 4日
借助功率配置文件优化 AI 和 HPC 工作负载的数据中心效率
不断呈指数级增长的计算需求正推动功耗持续上升,使数据中心面临巨大压力。在设施功耗受限的背景下,提升每瓦功耗的计算性能,
2 MIN READ
2025年 11月 25日
利用 NVIDIA 数据中心监控工具优化 GPU 集群性能
高性能计算(HPC)领域的客户持续快速扩展,生成式AI、大语言模型(LLM)、计算机视觉等应用推动了对GPU资源需求的显著增长。在此背景下,
2 MIN READ
2025年 11月 10日
在 Kubernetes 上启用 NVIDIA GB200 NVL72 及以上型号的多节点 NVLink
NVIDIA GB200 NVL72 将 AI 基础设施提升至全新高度,在大语言模型训练以及可扩展、低延迟推理工作负载的运行方面实现显著突破。
4 MIN READ
2025年 10月 30日
在 Microsoft Azure 上利用 NVIDIA Run:ai 简化 AI 基础设施
现代人工智能工作负载,无论是大规模训练还是实时推理,都需要动态访问高性能 GPU 资源。然而,
3 MIN READ
2025年 10月 28日
隆重推出用于 RNA 设计和分析的 CodonFM 开放模型
开放式研究对推动创新至关重要,AI 与科学领域的众多突破正是通过开放式协作实现的。在数字生物学研究领域,
3 MIN READ
2025年 10月 24日
NVIDIA DGX Spark 的性能如何支持密集型 AI 任务
当今,要求严苛的 AI 开发者工作负载通常需要比台式电脑所能提供的内存更多,也往往需要访问笔记本电脑或 PC 所不具备的软件,
2 MIN READ
2025年 10月 24日
通过 cuBLAS 中的浮点仿真释放 Tensor Core 性能
NVIDIA CUDA-X 数学库提供基础的数值计算模块,帮助开发者在人工智能和科学计算等多个高性能计算领域中部署加速应用程序。
3 MIN READ
2025年 10月 20日
在 NVL72 机架级系统上使用 Wide Expert Parallelism 扩展大型 MoE 模型
现代 AI 工作负载已远超单 GPU 推理服务的能力范围。模型并行技术通过在多个 GPU 之间高效划分计算任务,
3 MIN READ
2025年 10月 16日
NVIDIA Blackwell 在 SemiAnalysis InferenceMAX v1 基准测试中取得领先表现
SemiAnalysis 近期推出了 InferenceMAX v1,这是一项全新的开源计划,旨在提供一套全面评估推理硬件性能的方法。
3 MIN READ
2025年 9月 29日
在 NVIDIA Isaac Lab 2.3 中使用全身控制和增强遥操作,简化机器人学习
基于真实世界演示训练机器人策略,不仅成本高、速度慢,还容易出现过拟合问题,进而限制其在不同任务与环境中的泛化能力。
3 MIN READ