最近文章

2026年 3月 13日

视觉大模型赋能交通管理：图灵携手成都交投科技，基于 NVIDIA 全栈 AI 能力打造新一代违法检测解决方案

在智慧城市建设的浪潮中，交通管理正经历从”被动监控”向”主动理解”的深刻变革。面对海量交通视频数据与日新月异的违法场景，如何突破长尾识别难题、

2 MIN READ

2026年 3月 9日

三行命令，在 DGX Spark 上玩转 OpenClaw

我们深知开发者的宝贵时间不应浪费在繁琐的环境配置上。因此，这个项目将所有复杂性都封装在了两个脚本中。

2 MIN READ

2026年 3月 5日

控制 NVIDIA CCCL 中的浮点确定性

如果使用相同的输入数据进行多次运行时能够产生完全一致的逐位计算结果，则该计算被称为确定性计算。这看似简单，但在实际中却难以实现，

2 MIN READ

2026年 3月 5日

在 NVIDIA CUDA Tile 中调整 Flash Attention 以实现峰值性能

在本文中，我们将深入探讨现代 AI 中至关重要的工作负载之一：Flash Attention，您将了解：环境要求：

9 MIN READ

2026年 3月 5日

NVIDIA Blackwell 刷新金融领域大模型推理 STAC-AI 历史纪录

大语言模型（LLM）通过精密分析大量非结构化数据，生成切实可行的交易见解，正在重塑金融交易格局。这些先进的 AI 系统能够处理金融新闻、

3 MIN READ

2026年 3月 3日

cuTile.jl 为 Julia 带来基于 NVIDIA CUDA Tile 的编程

NVIDIA CUDA Tile 是 NVIDIA CUDA 编程的一项重要新增功能，可自动访问 Tensor Core 和其他专用硬件。

2 MIN READ

2026年 3月 3日

如何利用编码智能体大幅降低游戏运行时的推理成本

NVIDIA ACE 是一套用于构建游戏 AI 智能体的技术。ACE 为游戏中角色的各个部分（从语音到智能，

2 MIN READ

2026年 2月 28日

开发者可用 5 款全新数字孪生产品构建 6G 网络

要实现 6G，电信行业必须应对一项根本性挑战：如何设计、训练并验证那些过于复杂而无法在现实世界中进行测试的 AI 原生网络。

2 MIN READ

2026年 2月 28日

使用 NVIDIA NeMo 构建电信自主网络推理模型

自主网络正迅速成为电信行业的重点任务之一。根据最新的 NVIDIA 电信行业 AI 现状报告，65% 的运营商表示 AI 正在推动网络自动化，

2 MIN READ

2026年 2月 27日

基于 NVIDIA GPU 加速端点，使用千问3.5 VLM 开发原生多模态智能体

阿里巴巴推出了全新开源千问3.5 系列，专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为 397B、

1 MIN READ

2026年 2月 27日

借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力

部署 LLM 的组织面临着推理工作负载的挑战，这些工作负载具有差异化的资源需求。小型嵌入模型可能仅需几 GB 的 GPU 显存，

4 MIN READ

2026年 2月 25日

借助 NVIDIA Blackwell Ultra 提升 Softmax 的效率

LLM 上下文长度呈爆炸式增长，架构正朝着更复杂的注意力机制发展，例如多头潜在注意力（MLA）和分组查询注意力（GQA）。因此，

2 MIN READ

2026年 2月 23日

采用 NVFP4 低精度训练提升吞吐量，兼顾精度无损

随着 AI 模型和数据集规模的不断扩大，仅依赖更高精度的 BF16 训练已难以满足需求。训练吞吐量预期、内存限制以及成本上升等关键挑战，

3 MIN READ

2026年 2月 19日

借助 NVIDIA 多实例 GPU 和 NUMA 节点定位加速数据处理

NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Blackwell 系列中的 NVIDIA 旗舰数据中心 GPU…

3 MIN READ

2026年 2月 18日

NVIDIA 极致软硬件协同设计如何助力 Sarvam AI 主权模型实现惊人推理性能跃升

随着全球人工智能采用的加速，开发者面临日益严峻的挑战：如何提供符合现实世界延迟和成本要求的大语言模型（LLM）性能。

4 MIN READ

2026年 2月 18日

登顶 GPU 内核排行榜：借助 NVIDIA CUDA.compute 实现卓越性能

Python 在符合人体工程学的机器学习领域占据主导地位，但编写真正高效的 GPU 代码历来需要使用 C++ 编写自定义内核，

2 MIN READ