Ekin Karabulut

Ekin Karabulut 是一位数据科学家兼开发者倡导者，他曾在 Run：ai 任职，现就职于 NVIDIA，探索如何在不同的生产场景中高效使用大型模型。此前，她研究了联邦学习对隐私的影响，专注于分布式训练技术，并对研究和行业环境中 GPU 使用效率低下感到着迷。她成立了 AI 基础设施俱乐部，现居德国慕尼黑。

Posts by Ekin Karabulut

数据中心/云端 2026年 3月 23日

在 Kubernetes 上部署解 LLM 推理工作负载

随着大语言模型 (LLM) 推理工作负载的复杂性不断增加，单个单一的服务进程开始达到其极限。预填充和解码阶段具有截然不同的计算配置文件， 4 MIN READ

智能体/生成式 AI 2026年 2月 27日

借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力

部署 LLM 的组织面临着推理工作负载的挑战，这些工作负载具有差异化的资源需求。小型嵌入模型可能仅需几 GB 的 GPU 显存， 4 MIN READ

智能体/生成式 AI 2026年 2月 18日

在 NVIDIA Run:ai 中利用 GPU 解锁大规模 Token 吞吐能力

随着 AI 工作负载的扩展，实现高吞吐量、高效资源利用和可预测的延迟变得愈发关键。 NVIDIA Run:ai 通过智能调度和动态 GPU… 4 MIN READ

智能体/生成式 AI 2026年 1月 28日

基于时间的公平共享实现 Kubernetes 集群 GPU 分配均衡

NVIDIA Run:ai v2.24 引入了基于时间的公平分享，这是一种全新的调度模式，可为 Kubernetes 集群实现公平分享调度， 2 MIN READ

智能体/生成式 AI 2025年 11月 10日

使用 NVIDIA Grove 简化 Kubernetes 上的复杂 AI 推理

NVIDIA Dynamo 的新组件实现分布式推理的高效扩展 2 MIN READ

智能体/生成式 AI 2025年 9月 29日

利用 NVIDIA Run:ai 和 NVIDIA Dynamo 进行快速高效 LLM 推理的智能多节点调度

大语言模型的复杂性呈指数级增长，带来了诸多挑战，例如模型规模超出单个 GPU 的承载能力、对高吞吐量与低延迟工作负载的需求， 3 MIN READ