Posts by Wei-Ming Chen
代理式 AI/生成式 AI
2025年 12月 8日
使用 NVFP4 KV 缓存优化大批次与长上下文推理
量化是大规模推理中的关键手段之一。通过降低权重、激活值和KV缓存的精度,可以有效减少内存占用和计算开销,从而显著提升推理吞吐量、降低延迟,
3 MIN READ
数据中心/云端
2025年 8月 1日
通过训练后量化优化 LLM 的性能和准确性
量化是开发者的核心工具,旨在以最小的开销来提高推理性能。通过以可控的方式降低模型精度,无需重新训练,该技术可显著降低延迟、
4 MIN READ
对话式人工智能
2024年 8月 15日
NVIDIA TensorRT 模型优化器 v0.15 提高推理性能扩展模型支持能力
NVIDIA 宣布推出新版 v0.15 NVIDIA TensorRT 模型优化器,这是一种先进的模型优化技术量化工具包,包含量化、
2 MIN READ