教程
2026年 1月 15日
如何使用合成数据和强化学习训练 AI 智能体执行命令行任务
如果您的计算机智能体能够学习新的命令行界面(CLI),并且在无需编写文件或自由输入 shell 命令的情况下也能安全操作,该怎么办?
3 MIN READ
2026年 1月 14日
如何在 NVIDIA CUDA Tile 中编写高性能矩阵乘法
本博文是系列课程的一部分,旨在帮助开发者学习 NVIDIA CUDA Tile 编程,掌握构建高性能 GPU 内核的方法,
5 MIN READ
2026年 1月 9日
构建支持本地化交互体验的 AI 产品目录系统
电子商务目录通常包含稀疏的产品数据、通用图像、基础标题和简短说明,这限制了产品的可发现性、用户参与度以及转化率。手动扩充难以规模化,
3 MIN READ
2026年 1月 5日
基于 NVIDIA Alpamayo 构建具备推理能力的辅助驾驶汽车
辅助驾驶研究领域正经历一场快速变革。视觉-语言-动作推理模型(Reasoning VLA) 的出现正重塑该领域,
3 MIN READ
2026年 1月 5日
如何使用 RAG 和安全护栏构建语音智能体
构建智能体不仅仅是“调用 API”,而是需要将检索、语音、安全和推理组件整合在一起,使其像一个统一并互相协同的系统一样运行。
2 MIN READ
2025年 12月 19日
借助 NVIDIA ALCHEMI Toolkit-Ops 加速 AI 驱动的化学与材料科学模拟
机器学习原子间相互作用势(MLIP)正在改变计算化学与材料科学的格局。MLIP 能够实现原子尺度模拟,
4 MIN READ
2025年 12月 17日
借助 NVIDIA Isaac Sim 与 World Labs Marble 加速机器人仿真环境构建
一直以来,为机器人仿真构建逼真的 3D 环境是一项非常耗费人力的工作,往往需要数周的手动建模与配置。如今,借助生成式世界模型,
2 MIN READ
2025年 12月 17日
使用 NVIDIA cuDSS 解决大规模线性稀疏问题
随着芯片设计、制造和多物理场仿真复杂性的持续提升,在电子设计自动化(EDA)、
5 MIN READ
2025年 12月 17日
利用 Aether 项目将 Apache Spark 工作负载在 Amazon EMR 上大规模迁移至 GPU
数据是现代业务的燃料,但依赖基于 CPU 的 Apache Spark 管道 会带来高昂的成本。这些系统天生速度较慢,需要庞大的基础设施,
3 MIN READ
2025年 12月 17日
NVIDIA CUDA-Q QEC 中的实时解码、算法 GPU 解码器和 AI 推理增强功能
实时解码对于容错量子计算机至关重要。通过使解码器与量子处理器(QPU)同时以低延迟运行,我们能在相干时间内对设备施加校正,从而防止错误累积,
2 MIN READ
2025年 12月 16日
使用 NVIDIA CUDA MPS 无需修改代码即可提升 GPU 显存性能
NVIDIA CUDA 开发者可以利用多种工具和库来简化开发与部署,使用户能够专注于应用程序的“内容”和“方式”。 多进程服务 (MPS)…
5 MIN READ
2025年 12月 16日
cuQuantum SDK v25.11 中的先进大规模量子模拟技术
随着量子处理器 (QPU) 性能的提升,模拟大规模量子计算机变得愈发困难。验证结果是确保在设备规模超出经典可模拟范围后,
4 MIN READ
2025年 12月 16日
使用 Skip Softmax 加速 NVIDIA TensorRT-LLM 中的长上下文推理
对于大规模部署 LLM 的机器学习工程师来说,这个等式既熟悉又无情:随着上下文长度的增加,注意力计算成本呈爆炸式增长。
4 MIN READ
2025年 12月 16日
利用生成式 AI 和视觉基础模型优化半导体缺陷分类
每个现代电子设备的核心都是一块硅芯片,它通过极为精密的制造工艺构建而成,微小的缺陷也可能决定其成败。随着半导体器件日益复杂,
3 MIN READ
2025年 12月 15日
如何使用强化学习训练科学智能体
科学过程可能重复且繁琐,研究人员往往需要花费数小时深入研读论文、管理实验流程或整理庞大的多模态数据集。科学 AI 智能体能够承担大量繁重任务,
3 MIN READ
2025年 12月 15日
减小 CUDA 二进制大小以在 PyPI 上分发 cuML
从 25.10 版本开始,现在可以直接从 PyPI 下载用于 pip 安装的 cuML wheels。
3 MIN READ