TensorRT-LLM
2026年 6月 9日
模型量化:借助 NVIDIA TensorRT 将 FP8 检查点转变为高性能推理引擎
将量化检查点转换为 NVIDIA TensorRT 引擎可以弥合模型优化与生产部署之间的差距,从而实现更快的推理速度、
4 MIN READ
2025年 5月 2日
借助 NVIDIA 在生产应用中集成和部署 Tongyi Qwen3 模型
阿里巴巴近期发布了其开源的混合推理大语言模型(LLM)通义千问 Qwen3,此次 Qwen3 开源模型系列包含两款混合专家模型 (MoE)…
3 MIN READ