kubernetes
2025年 12月 12日
在 Kubernetes 上实现企业级 RAG 组件的横向自动扩展
当今出色的 AI 智能体 依靠 检索增强生成 (RAG) 来实现更准确的结果。一个 RAG 系统通过利用知识库,为 大语言模型 (LLM)…
11 MIN READ
2025年 12月 8日
使用 NVSentinel 自动监控 Kubernetes AI 集群健康状态
Kubernetes 支持生产环境中绝大多数 AI 工作负载。然而,维护 GPU 节点、保障应用稳定运行、持续推进训练任务,
2 MIN READ
2025年 11月 10日
使用 NVIDIA Grove 简化 Kubernetes 上的复杂 AI 推理
NVIDIA Dynamo 的新组件实现分布式推理的高效扩展
2 MIN READ
2025年 9月 29日
利用 NVIDIA Run:ai 和 NVIDIA Dynamo 进行快速高效 LLM 推理的智能多节点调度
大语言模型的复杂性呈指数级增长,带来了诸多挑战,例如模型规模超出单个 GPU 的承载能力、对高吞吐量与低延迟工作负载的需求,
3 MIN READ
2025年 9月 2日
降低模型部署成本,同时通过 GPU 显存交换保持性能
大规模部署大语言模型(LLM)面临双重挑战:一方面需保障高需求时段的快速响应能力,另一方面又要有效控制 GPU 成本。组织通常面临两难选择:
2 MIN READ
2025年 7月 15日
借助亚马逊云科技上的 NVIDIA Run:ai 加速 AI 模型编排
在开发和部署高级 AI 模型时,访问可扩展的高效 GPU 基础设施至关重要。但是,在云原生、容器化环境中管理此基础设施可能既复杂又昂贵。
1 MIN READ
2025年 6月 25日
NVIDIA DOCA 3.0 助力 AI 平台开启网络新纪元
NVIDIA DOCA 框架已发展成为新一代 AI 基础设施的重要组成部分。从初始版本到备受期待的 NVIDIA DOCA 3.0 发布,
3 MIN READ
2025年 6月 24日
NVIDIA Run:ai 和 Amazon SageMaker HyperPod 携手简化复杂 AI 训练管理
NVIDIA Run:ai 和 Amazon Web Services 引入了集成,使开发者能够无缝扩展和管理复杂的 AI 训练工作负载。
2 MIN READ
2025年 6月 17日
通过 NVIDIA Holoscan for Media 上的全新 AI 应用实例,实现实时 AI 媒体效果增强
直播媒体工作流越来越多地使用 AI 微服务来增强制作能力。然而,先进的 AI 模型大多托管在云端,由于网络延迟、带宽和实时可扩展性方面的限制,
1 MIN READ
2025年 5月 20日
NVIDIA Dynamo 新增 GPU 自动缩放、Kubernetes 自动化和网络优化功能
在 NVIDIA GTC 2025 上,我们宣布推出 NVIDIA Dynamo ,这是一种高吞吐量、低延迟的开源推理服务框架,
2 MIN READ
2025年 4月 29日
NVIDIA NIM Operator 2.0 借助 NVIDIA NeMo 微服务支持提高 AI 部署效率
NVIDIA 的首个版本 NIM 运算符 简化了推理工作流的部署和生命周期管理 NVIDIA NIM 微服务,减少 MLOps、
2 MIN READ
2025年 4月 1日
NVIDIA 开源 Run:ai 调度程序以推动社区协作
今天,NVIDIA 宣布推出 KAI Scheduler 的开源版本,这是一种 Kubernetes-native GPU 调度解决方案,
3 MIN READ
2025年 3月 31日
Volcano 调度程序中防止 GPU 碎片的实用技巧
在 NVIDIA,我们以精准和创新解决复杂的基础设施挑战为豪。当 Volcano 在其 NVIDIA DGX 云调配的 Kubernetes…
3 MIN READ
2025年 3月 25日
借助 NVIDIA Mission Control 实现 AI 工厂自动化
DeepSeek-R1 等先进的 AI 模型证明,企业现在可以构建专用于自己的数据和专业知识的尖端 AI 模型。
2 MIN READ
2025年 3月 5日
借助 NVIDIA NIM 和 NVIDIA Holoscan for Media 增强直播媒体工作流程效率
NVIDIA Holoscan for Media 是一个 NVIDIA 加速平台,专为多供应商实时制作和 AI 而设计。
2 MIN READ
2025年 1月 22日
在 Kubernetes 上实现 NVIDIA NIM 微服务的水平自动缩放
NVIDIA NIM 微服务是可部署在 Kubernetes 上的模型推理容器。在生产环境中,
3 MIN READ