LLM

2026年 3月 5日

NVIDIA Blackwell 刷新金融领域大模型推理 STAC-AI 历史纪录

大语言模型（LLM）通过精密分析大量非结构化数据，生成切实可行的交易见解，正在重塑金融交易格局。这些先进的 AI 系统能够处理金融新闻、

3 MIN READ

2026年 2月 27日

借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力

部署 LLM 的组织面临着推理工作负载的挑战，这些工作负载具有差异化的资源需求。小型嵌入模型可能仅需几 GB 的 GPU 显存，

4 MIN READ

2026年 2月 25日

借助 NVIDIA Blackwell Ultra 提升 Softmax 的效率

LLM 上下文长度呈爆炸式增长，架构正朝着更复杂的注意力机制发展，例如多头潜在注意力（MLA）和分组查询注意力（GQA）。因此，

2 MIN READ

2026年 2月 18日

在 NVIDIA Run:ai 中利用 GPU 解锁大规模 Token 吞吐能力

随着 AI 工作负载的扩展，实现高吞吐量、高效资源利用和可预测的延迟变得愈发关键。 NVIDIA Run:ai 通过智能调度和动态 GPU…

4 MIN READ

2026年 2月 17日

构建 AI 就绪型知识系统：掌握 5 种核心多模态 RAG 功能

企业数据本身具有高度复杂性：现实世界中的文档是多模态的，包含文本、表格、图表与图形、图像、扫描页面、表单以及嵌入式元数据。

3 MIN READ

2026年 2月 9日

借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化自动化

NVIDIA TensorRT LLM 使开发者能够为大语言模型 (LLM) 构建高性能推理引擎，但传统上部署新架构往往需要大量手动工作。

3 MIN READ

2026年 2月 5日

如何构建合规的 AI 模型蒸馏合成数据工作流

专用 AI 模型用于执行特定任务或解决特定问题。然而，如果您曾尝试对特定领域的模型进行微调或蒸馏，可能会遇到一些障碍，例如：

4 MIN READ

2026年 2月 4日

如何使用 Nemotron 为 RAG 构建文档处理流程

如果您的 AI 智能体能够像读取文本文件一样轻松地即时解析复杂的 PDF、提取嵌套表格并“查看”图表中的数据，该怎么办？

3 MIN READ

2026年 2月 2日

使用混合专家并行优化混合专家训练的通信

在 LLM 训练中，超大规模多专家模型 (MoE) 的专家并行 (EP) 通信面临巨大挑战。EP 通信本质上属于多对多模式，

4 MIN READ

2026年 1月 28日

更新视觉语言模型的分类器规避

AI 架构的进步解锁了多模态功能，使 Transformer 模型能够在统一的上下文中处理多种类型的数据。例如，

3 MIN READ

2026年 1月 27日

使用 NVIDIA TensorRT LLM 部署 MiniMax M2/M2.1 稀疏 MoE 大模型

MiniMax M2/M2.1 是一款面向 Agents 和 Coding 工作流的开源稀疏 MoE 模型，在工具调用、

2 MIN READ

2026年 1月 15日

如何使用合成数据和强化学习训练 AI 智能体执行命令行任务

如果您的计算机智能体能够学习新的命令行界面（CLI），并且在无需编写文件或自由输入 shell 命令的情况下也能安全操作，该怎么办？

3 MIN READ

2026年 1月 9日

构建支持本地化交互体验的 AI 产品目录系统

电子商务目录通常包含稀疏的产品数据、通用图像、基础标题和简短说明，这限制了产品的可发现性、用户参与度以及转化率。手动扩充难以规模化，

3 MIN READ

2026年 1月 9日

多智能体仓库 AI 命令层实现卓越运营和供应链智能

仓库的自动化程度从未如此之高，数据也从未如此丰富，运营要求同样日益提升，但许多仓库仍依赖于无法跟上需求的系统。吞吐量持续攀升，

2 MIN READ

2026年 1月 9日

重塑大模型内存：以上下文为训练数据，实现测试时学习

我们在新闻中不断看到拥有更大上下文窗口的大型语言模型（LLM），它们承诺能够同时查看完整的对话历史、大量书籍或多个代码库。然而，

1 MIN READ

2026年 1月 8日

借助 NVIDIA Blackwell 实现多专家模型推理的巨大性能飞跃

随着 AI 模型持续变得更加智能，人们能够依赖它们完成日益增多的任务。这导致用户（从消费者到企业）与 AI 的交互愈发频繁，

2 MIN READ