Posts by Jun Yang
代理式 AI/生成式 AI
2025年 10月 20日
在 NVL72 机架级系统上使用 Wide Expert Parallelism 扩展大型 MoE 模型
现代 AI 工作负载已远超单 GPU 推理服务的能力范围。模型并行技术通过在多个 GPU 之间高效划分计算任务,
3 MIN READ
数据中心/云端
2024年 8月 28日
NVIDIA Blackwell 平台在 MLPerf Inference v4.1 中创下新的 LLM 推理记录
大型语言模型 (LLM) 推理是一项全栈挑战。实现高吞吐量、低延迟推理需要强大的 GPU、高带宽 GPU 之间的互连、
4 MIN READ