智能体/生成式 AI

2026年 3月 5日

在 NVIDIA CUDA Tile 中调整 Flash Attention 以实现峰值性能

在本文中，我们将深入探讨现代 AI 中至关重要的工作负载之一：Flash Attention，您将了解：环境要求：

9 MIN READ

2026年 3月 5日

NVIDIA Blackwell 刷新金融领域大模型推理 STAC-AI 历史纪录

大语言模型（LLM）通过精密分析大量非结构化数据，生成切实可行的交易见解，正在重塑金融交易格局。这些先进的 AI 系统能够处理金融新闻、

3 MIN READ

2026年 3月 3日

如何利用编码智能体大幅降低游戏运行时的推理成本

NVIDIA ACE 是一套用于构建游戏 AI 智能体的技术。ACE 为游戏中角色的各个部分（从语音到智能，

2 MIN READ

2026年 2月 28日

使用 NVIDIA NeMo 构建电信自主网络推理模型

自主网络正迅速成为电信行业的重点任务之一。根据最新的 NVIDIA 电信行业 AI 现状报告，65% 的运营商表示 AI 正在推动网络自动化，

2 MIN READ

2026年 2月 27日

基于 NVIDIA GPU 加速端点，使用千问3.5 VLM 开发原生多模态智能体

阿里巴巴推出了全新开源千问3.5 系列，专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为 397B、

1 MIN READ

2026年 2月 27日

借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力

部署 LLM 的组织面临着推理工作负载的挑战，这些工作负载具有差异化的资源需求。小型嵌入模型可能仅需几 GB 的 GPU 显存，

4 MIN READ

2026年 2月 25日

借助 NVIDIA Blackwell Ultra 提升 Softmax 的效率

LLM 上下文长度呈爆炸式增长，架构正朝着更复杂的注意力机制发展，例如多头潜在注意力（MLA）和分组查询注意力（GQA）。因此，

2 MIN READ

2026年 2月 23日

采用 NVFP4 低精度训练提升吞吐量，兼顾精度无损

随着 AI 模型和数据集规模的不断扩大，仅依赖更高精度的 BF16 训练已难以满足需求。训练吞吐量预期、内存限制以及成本上升等关键挑战，

3 MIN READ

2026年 2月 19日

借助 NVIDIA 多实例 GPU 和 NUMA 节点定位加速数据处理

NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Blackwell 系列中的 NVIDIA 旗舰数据中心 GPU…

3 MIN READ

2026年 2月 18日

NVIDIA 极致软硬件协同设计如何助力 Sarvam AI 主权模型实现惊人推理性能跃升

随着全球人工智能采用的加速，开发者面临日益严峻的挑战：如何提供符合现实世界延迟和成本要求的大语言模型（LLM）性能。

4 MIN READ

2026年 2月 18日

登顶 GPU 内核排行榜：借助 NVIDIA CUDA.compute 实现卓越性能

Python 在符合人体工程学的机器学习领域占据主导地位，但编写真正高效的 GPU 代码历来需要使用 C++ 编写自定义内核，

2 MIN READ

2026年 2月 18日

在 NVIDIA Run:ai 中利用 GPU 解锁大规模 Token 吞吐能力

随着 AI 工作负载的扩展，实现高吞吐量、高效资源利用和可预测的延迟变得愈发关键。 NVIDIA Run:ai 通过智能调度和动态 GPU…

4 MIN READ

2026年 2月 17日

构建 AI 就绪型知识系统：掌握 5 种核心多模态 RAG 功能

企业数据本身具有高度复杂性：现实世界中的文档是多模态的，包含文本、表格、图表与图形、图像、扫描页面、表单以及嵌入式元数据。

3 MIN READ

2026年 2月 9日

借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化自动化

NVIDIA TensorRT LLM 使开发者能够为大语言模型 (LLM) 构建高性能推理引擎，但传统上部署新架构往往需要大量手动工作。

3 MIN READ

2026年 2月 6日

NVFP4 加速 AI 训练与推理的三大方式

新兴的 AI 模型在规模和复杂性上持续增长，对训练和推理的计算性能需求日益提升，已远超摩尔定律所能满足的范畴。

2 MIN READ

2026年 2月 5日

如何构建合规的 AI 模型蒸馏合成数据工作流

专用 AI 模型用于执行特定任务或解决特定问题。然而，如果您曾尝试对特定领域的模型进行微调或蒸馏，可能会遇到一些障碍，例如：

4 MIN READ