Hopper
2025年 12月 16日
塑造 2025 年的 AI 工厂、物理 AI 以及模型、智能体和基础设施的进步
对于使用 NVIDIA 技术的开发者和研究人员而言,2025 年是又一个具有里程碑意义的年份。在数据中心功耗与计算设计、AI 基础设施、
3 MIN READ
2025年 12月 16日
使用 Skip Softmax 加速 NVIDIA TensorRT-LLM 中的长上下文推理
对于大规模部署 LLM 的机器学习工程师来说,这个等式既熟悉又无情:随着上下文长度的增加,注意力计算成本呈爆炸式增长。
4 MIN READ
2025年 12月 12日
如何在现代 NVIDIA GPU 架构上扩展快速里叶变换以实现百亿亿次级计算
快速里叶变换 (FFT) 广泛应用于科学计算,涵盖分子动力学、信号处理、计算流体动力学 (CFD)、无线多媒体以及机器学习等领域。
4 MIN READ
2025年 9月 5日
通过 CPU-GPU 显存共享加速大规模 LLM 推理和 KV 缓存卸载
大语言模型(LLM)处于人工智能创新的前沿,但其庞大的规模往往会影响推理效率。例如,Llama 3 70B 和 Llama 4 Scout…
2 MIN READ
2025年 9月 2日
借助启发式算法和 CUTLASS 4.2 提高 NVIDIA GPU 上的 GEMM 内核自动调整效率
为特定问题和硬件选择合适的通用矩阵乘法(GEMM)核函数是一项重大挑战。GEMM 核函数的性能由一系列编译时和运行时的元参数共同决定,
2 MIN READ
2025年 8月 21日
更少的编码,更多的科学:借助 OpenACC 和统一内存简化 GPU 上的海洋建模
NVIDIA HPC SDK v25.7 为采用 GPU 加速的高性能计算(HPC)应用开发者带来了重大突破。
3 MIN READ
2025年 6月 10日
由 NVIDIA 驱动的现代超级计算机如何推动速度和科学的极限
现代高性能计算 (HPC) 实现的不仅仅是快速计算,它还为正在解锁科学突破的 AI 系统提供支持。 HPC 已经经历了多次迭代,
2 MIN READ
2025年 5月 30日
全球五大洲电信运营商正建立 NVIDIA 赋能的主权人工智能基础设施
AI 正在成为各行各业创新的基石,将创造力和生产力提升到新的水平,并从根本上重塑我们的生活和工作方式。AI 工厂是一种新型基础设施,
3 MIN READ
2025年 5月 27日
在 NVIDIA Grace Hopper 上分析大型语言模型训练工作流
AI 的快速发展催生了模型大小呈指数级增长的时代,特别是在大语言模型 (LLMs) 领域。这些模型凭借其变革能力,正在推动各行各业的创新。
3 MIN READ
2025年 5月 27日
在 NVIDIA Grace Hopper 上训练大型语言模型的高级优化策略
虽然分析有助于识别效率低下的情况,但高级优化策略对于解决硬件限制和有效扩展 AI 工作负载至关重要。在本文中,我们将探讨 CPU 卸载、
3 MIN READ
2025年 5月 1日
借助 NVIDIA cuBLAS 12.9 提高矩阵乘法速度和灵活性
NVIDIA CUDA-X 数学库助力开发者为 AI、科学计算、数据处理等领域构建加速应用。
3 MIN READ
2025年 4月 2日
NVIDIA Blackwell 在 MLPerf Inference v5.0 中实现巨大的性能飞跃
在不断增长的模型大小、实时延迟要求以及最近的 AI 推理的推动下, 大语言模型 (LLM) 推理的计算需求正在快速增长。与此同时,
3 MIN READ
2025年 3月 3日
AI 模型为环保人士提供大规模保护渔业和野生动物的新工具
为了遏制非法捕捞,研究人员发布了一个新的开源 AI 模型,该模型可以准确识别世界上几乎所有的航海船只的行为,包括船只是否可能非法捕捞。
1 MIN READ
2025年 2月 28日
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 优化 SLM 基础的垂直服务
NAVER 是一家韩国热门搜索引擎公司,提供 Naver Place ,这是一项基于地理的服务,可提供有关韩国数百万家企业和兴趣点的详细信息。
4 MIN READ
2025年 2月 28日
使用 DeepSeek-R1 NIM 构建具有专家推理功能的 AI 智能体
AI 智能体 正在通过实现流程自动化、优化决策制定和简化操作来改变业务运营。其有效性取决于专家推理,从而实现更明智的规划和高效执行。
2 MIN READ
2025年 2月 20日
聚焦:东京大学使用 NVIDIA Grace Hopper 进行开创性的节能地震研究
超级计算机是推动突破性发现的引擎。从预测极端天气到推进疾病研究,以及设计更安全、更高效的基础设施,这些机器可以模拟因规模、
2 MIN READ