Wei-Ming Chen

Wei-Ming Chen 是 NVIDIA 深度学习算法和软件团队的高级工程师,专注于高效的深度学习和模型部署。在加入 NVIDIA 之前,他曾是麻省理工学院的博士后研究员,师从宋教授。Wei - Ming 拥有国立台湾大学计算机科学博士学位、硕士学位和学士学位。

Posts by Wei-Ming Chen

代理式 AI/生成式 AI

使用 NVFP4 KV 缓存优化大批次与长上下文推理

量化是大规模推理中的关键手段之一。通过降低权重、激活值和KV缓存的精度,可以有效减少内存占用和计算开销,从而显著提升推理吞吐量、降低延迟, 3 MIN READ
数据中心/云端

通过训练后量化优化 LLM 的性能和准确性

量化是开发者的核心工具,旨在以最小的开销来提高推理性能。通过以可控的方式降低模型精度,无需重新训练,该技术可显著降低延迟、 4 MIN READ
对话式人工智能

NVIDIA TensorRT 模型优化器 v0.15 提高推理性能扩展模型支持能力

NVIDIA 宣布推出新版 v0.15 NVIDIA TensorRT 模型优化器,这是一种先进的模型优化技术量化工具包,包含量化、 2 MIN READ