Posts by Eduardo Alvarez
数据中心/云端
2025年 12月 9日
五大 AI 模型优化技术,实现更快速、更智能的推理
随着 AI 模型规模不断扩大,架构日益复杂,研究人员和工程师正持续探索新技术,以优化 AI 系统在生产环境中的性能并降低总体成本。
2 MIN READ
代理式 AI/生成式 AI
2025年 12月 8日
使用 NVFP4 KV 缓存优化大批次与长上下文推理
量化是大规模推理中的关键手段之一。通过降低权重、激活值和KV缓存的精度,可以有效减少内存占用和计算开销,从而显著提升推理吞吐量、降低延迟,
3 MIN READ
代理式 AI/生成式 AI
2025年 12月 2日
NVIDIA 加速的 Mistral 3 开源模型,实现多规模下的高效与精准
新的 Mistral 3 开放模型系列为开发者和企业提供了卓越的准确性、高效的性能以及灵活的定制功能。
3 MIN READ
数据中心/云端
2025年 11月 25日
利用 NVIDIA 数据中心监控工具优化 GPU 集群性能
高性能计算(HPC)领域的客户持续快速扩展,生成式AI、大语言模型(LLM)、计算机视觉等应用推动了对GPU资源需求的显著增长。在此背景下,
2 MIN READ
代理式 AI/生成式 AI
2025年 10月 20日
在 NVL72 机架级系统上使用 Wide Expert Parallelism 扩展大型 MoE 模型
现代 AI 工作负载已远超单 GPU 推理服务的能力范围。模型并行技术通过在多个 GPU 之间高效划分计算任务,
3 MIN READ
代理式 AI/生成式 AI
2025年 9月 11日
量化感知训练如何实现低精度恢复
训练 AI 模型后,可采用多种压缩技术来优化模型的部署。其中较为常见的是后训练量化(PTQ),该方法通过数值缩放技术,
3 MIN READ