Fernando Xiong

Fernando Xiong 是 NVIDIA 计算架构团队的高级架构师,专注于 LLMinference 的预测解码、性能优化以及用于软件工程的 AI 智能体系统。Fernando 拥有中国人民大学计算机科学硕士学位。

Posts by Fernando Xiong

精选

使用 DFlash 预测解码,在 NVIDIA Blackwell 上将推理性能提升高达 15 倍

随着 AI 系统从单轮交互转向协调的多智能体工作流,低延迟 推理 成为越来越重要。自回归 LLM 按顺序生成 token, 2 MIN READ