Posts by Gao Wenwen
智能体/生成式 AI
2026年 2月 23日
采用 NVFP4 低精度训练提升吞吐量,兼顾精度无损
随着 AI 模型和数据集规模的不断扩大,仅依赖更高精度的 BF16 训练已难以满足需求。训练吞吐量预期、内存限制以及成本上升等关键挑战,
3 MIN READ
智能体/生成式 AI
2025年 11月 6日
在 PyTorch 中加速大规模混合专家训练
长期以来,训练大规模多专家(MoE)模型一直属于少数具备深厚基础设施和分布式系统专业知识的高级用户。对大多数开发者而言,
2 MIN READ
智能体/生成式 AI
2025年 8月 20日
借助 NVIDIA NeMo-RL 进行强化学习:Megatron 核心支持优化训练吞吐量
NVIDIA NeMo-RL 的初始版本通过 PyTorch DTensor(也称为 FSDP2)提供训练支持。
3 MIN READ
开发工具与技巧
2025年 7月 9日
使用 NVIDIA NeMo-RL 进行强化学习:通过 GRPO 复制 DeepScaleR 配方
强化学习 (RL) 是交互式 AI 的支柱。它对于教导智能体推理和从人类偏好中学习、实现多轮工具使用等至关重要。
2 MIN READ
对话式人工智能
2025年 6月 2日
通过高效的长上下文大语言模型训练扩展到数百万个 Token
大语言模型 (LLM) 的演变标志着其处理和生成文本的能力有了显著提升。在这些发展中,上下文长度的概念 (模型可以处理的单个输入样本中的…
2 MIN READ
数据中心/云端
2025年 5月 14日
借助 NVIDIA Nemo 框架,在远程数据中心网络中加速 LLM 训练
多数据中心训练对 AI 工厂至关重要,因为预训练扩展会推动更大模型的创建,导致对计算性能的需求超过单个设施的能力。
2 MIN READ