数据科学
2026年 5月 26日
借助 NVIDIA CompileIQ 自动调整功能提升内核性能
NVIDIA CompileIQ 解决了性能工程中最棘手的问题之一:找到为特定工作负载解锁最佳性能的编译器选项。 想象一下,
3 MIN READ
2026年 5月 26日
使用 NVIDIA CUDA Tile 在 C++ 中开发高性能 GPU 内核
开发者现在可以在现有的大型 C++ GPU 代码库中使用 NVIDIA CUDA Tile 编程,
6 MIN READ
2026年 5月 7日
模型量化:使用 NVIDIA Model Optimizer 进行后训练量化
模型量化是一种有效的方法,可减少显存占用并提升消费级设备(如 NVIDIA GeForce RTX GPU)上的推理性能。
2 MIN READ
2026年 5月 7日
借助 NCCL Inspector 和 Prometheus 实现实时性能监控和快速调试
分布式深度学习依赖于 NVIDIA 集合通信库(NCCL) 实现快速可靠的 GPU 间通信。当训练速度变慢时,
3 MIN READ
2026年 4月 30日
使用 AI 智能体自动翻译 GPU 内核:将 cuTile Python 转换为 cuTile.jl
NVIDIA CUDA Tile(cuTile)是一种基于图块的编程模型,可让开发者以图块为单位进行操作(如加载、存储和矩阵乘积累加),
3 MIN READ
2026年 4月 28日
在 NVIDIA BioNeMo 中使用上下文并行性扩展生物分子建模
几十年来,计算生物学一直在简化主义妥协下运作。为了将复杂的生物系统整合到单个 GPU 的有限内存中,
2 MIN READ
2026年 4月 28日
全天候模拟循环:代理式 AI 如何保持地下工程的移动
地下行业正处于数字化发展的关键时刻。几十年来,挖掘油藏潜力一直依赖于执行必要且耗时的手动工作流程的专家。 随着数据复杂性的增加,
2 MIN READ
2026年 4月 24日
使用 NVIDIA FLARE 在无重构开销的情况下进行联合学习
联邦学习 (FL) 不再是研究的好奇心,而是对棘手限制的实际回应:最有价值的数据通常是最不可动的数据。监管边界、
3 MIN READ
2026年 4月 23日
使用生成式 AI 辅助编码在 Kaggle 比赛中获胜
2026 年 3 月,三个 LLM 智能体生成了超过 60 万行代码,运行了 850 个实验,
3 MIN READ
2026年 4月 20日
使用端到端 FP8 精度运行高吞吐量强化学习训练
随着 LLM 从简单的文本生成过渡到复杂的推理,强化学习 (RL) 发挥着核心作用。群相对策略优化 (GRPO) 等算法为这种转变提供动力,
3 MIN READ
2026年 4月 9日
使用约 30 行 Python 和 NVIDIA nvCOMP 降低检查点成本
训练 LLM 需要定期检查点。这些模型权重、优化器状态和梯度的完整快照将保存到存储中,以便在中断后恢复训练。在规模上,这些检查点变得庞大 (…
5 MIN READ
2026年 4月 9日
如何加速蛋白质组规模的蛋白质结构预测
蛋白质很少像单个单体那样独立发挥作用。大多数生物过程由与其他蛋白质相互作用的蛋白质控制,形成蛋白质配合物,
2 MIN READ
2026年 3月 24日
构建用于推理、多模态 RAG、语音和安全的 NVIDIA Nemotron 3 智能体
代理式 AI 是一个专业模型协同工作的生态系统,可处理规划、推理、检索和安全护栏。随着这些系统的扩展,开发者需要能够理解现实世界多模态数据、
3 MIN READ
2026年 3月 16日
NVIDIA Vera CPU 为 AI 工厂提供高性能、高带宽和高效率
AI 在不断发展,推理模型对 token 的需求不断增加,对 AI 基础设施的每一层都提出了新的要求。计算比以往任何时候都更需要高效扩展,
3 MIN READ
2026年 3月 9日
CUDA 13.2 引入增强的 CUDA Tile 支持和新的 Python 功能
CUDA 13.2 发布后进行了重大更新:NVIDIA CUDA Tile 现已支持具有 8.X 架构 ( NVIDIA Ampere 和…
5 MIN READ
2026年 3月 5日
控制 NVIDIA CCCL 中的浮点确定性
如果使用相同的输入数据进行多次运行时能够产生完全一致的逐位计算结果,则该计算被称为确定性计算。这看似简单,但在实际中却难以实现,
2 MIN READ