几十年来,传统数据中心一直是摆放服务器的庞大空间,功耗与散热问题往往被置于次要位置。然而,生成式人工智能的兴起已将这些设施转变为专门的AI工厂,彻底改变了原有的建设模式。过去,电力基础设施是决定新部署规模、选址及可行性的关键因素。
我们正处在一个关键的转折点,行业已无法仅靠渐进式改进持续发展,必须转向根本性的架构变革。这一新的蓝图需要具备更高的效率、更强的可扩展性,并能有效应对现代人工智能带来的电力需求挑战。
该解决方案采用双管齐下的策略:一方面部署800伏直流(VDC)配电系统,另一方面整合多时间尺度的能源存储。这不仅是为了保障电力供应,更是为未来计算的发展奠定坚实基础。
AI 工作负载的功率需求持续攀升
多年来,处理器技术的持续进步使得功耗大约上升了20%。然而,如今这一可预测的趋势已被打破。推动这一变化的核心是对性能的不断追求,借助 NVIDIA NVLink 等高带宽互连技术,成千上万的GPU能够协同工作,如同一个统一的整体处理器。
为了实现所需的低延迟和高带宽,这些连接依赖于铜缆。然而,铜缆的有效传输距离有限,由此形成了所谓的性能密度瓶颈。要构建更强大的 AI 系统,就需要将更多 GPU 集成到更小的物理空间中。这种架构需求使得性能与功率密度紧密关联。
从 NVIDIA Hopper 架构到 NVIDIA Blackwell 架构的演进便是一个典型例证。尽管单个 GPU 的热设计功耗(TDP)上升了 75%,但当 NVLink 域扩展至包含 72 个 GPU 的系统时,机架的功率密度提升了 3.4 倍。由此带来的性能增益高达 50 倍,令人瞩目。然而,这也使得单机架的功耗从数十千瓦攀升至超过 100 千瓦,未来甚至将达到 1 兆瓦。在传统的低压环境(例如 54 VDC)下实现如此高的功率输送,在物理实现和经济成本上均面临巨大挑战。所需电流极为庞大,不仅会引发显著的电阻损耗,还要求使用数量难以承受的铜缆,显然不可持续。
应对工作负载波动性的挑战
除了绝对密度之外,AI 工作负载还带来另一项同样严峻的挑战:波动性。与传统数据中心运行数千个互不相关的任务不同,AI 工厂以单一同步系统的模式运作。在训练大语言模型(LLM)时,数千个 GPU 会同时以近乎一致的节奏执行高强度计算,随后进入数据交换阶段。
这将在整个设施范围内形成具有大幅且快速负载波动特征的功率曲线。NVIDIA、微软和 OpenAI 关于 AI 训练数据中心功率稳定性的联合研究记录了此类波动带来的挑战。该研究揭示了同步 GPU 工作负载可能引发大规模电网波动的现象。
机架的功耗可能在几毫秒内从约30%的“空闲”状态迅速上升至100%,随后又快速回落。这种瞬时的功率波动迫使工程师必须按照峰值电流而非平均值来设计和选型关键组件,导致成本上升和设备占用空间增加。当这种波动在整座数据大厅范围内叠加时,可能表现为数百兆瓦功率在数秒内的剧烈起伏,对公共电网的稳定性构成显著挑战,从而使电网互联成为AI规模扩展中的关键瓶颈之一。
新型供电架构
解决这一多方面危机需要采取相应的综合性方案。所提出的架构蓝图采用双管齐下的策略,通过转向800 VDC配电系统,并深度整合能源存储,以应对规模扩大和波动性带来的挑战。
800 VDC 的优势
提高电压是应对高功率配电挑战的有效途径。从传统的415 V或480 V交流三相系统转向800 V直流架构,具有诸多优势,包括:
原生 800 VDC 端到端集成架构
可在设施层面直接生成800 VDC电力,并将其直接输送至800 VDC计算机柜,从而消除冗余的电力转换环节,显著提升整体能效。该架构支持高密度GPU集群部署,充分发挥每颗GPU的性能潜力,使每个AI工厂可容纳更多GPU,为合作伙伴带来更高的计算吞吐能力和收益空间。同时,该设计具备良好的可扩展性,未来可支持单机柜功率超过1 MW,并实现AI工厂电力生态系统的无缝互操作与协同运行。
在采用 800 VDC 时,相同线规可传输的功率比 415 VAC 高出 15.7%,从而减少铜缆的使用并降低成本。
相比交流电所需的四线配置,直流系统采用更简洁的三线结构(POS、RTN、PE),减少了导体数量和连接器尺寸。这不仅降低了材料与安装成本,还简化了线缆管理,对于机架电源向兆瓦级扩展的应用场景尤为重要。
原生直流(DC)架构
通过消除传统系统中多个低效的交流(AC)到直流(DC)转换环节,显著提升了效率。在传统系统中,端到端效率往往不足90%,而这种简化的功率传输路径不仅提高了整体能效,还有效减少了余热产生。
直流配电系统结构更为简洁,减少了变压器和相位平衡装置等组件的使用
结构的简化降低了潜在故障点的数量,从而提升了系统的整体可靠性。
这一领域并非陌生。电动汽车和公用事业规模的太阳能行业早已采用 800 VDC 甚至更高的电压,以提升效率与功率密度,由此形成了一个成熟的组件体系和实践积累,可为数据中心所借鉴。
利用多时间尺度的能源存储平抑波动
尽管 800 VDC 解决了大规模能效问题,却无法应对工作负载的波动。为此,必须将能源存储视为电力架构中的关键主动组件,而不仅仅是备用系统。其目标是构建一个缓冲区(相当于低通滤波器),将 GPU 的瞬变功率需求与电网的稳定性要求分离开来。
由于功率波动可能在多个时间尺度上发生,因此需要采用多层次的应对策略。
- 短时存储(毫秒到秒级):在靠近计算机机架的位置部署高功率电容器和超级电容器。这类器件响应速度快,可有效吸收高频功率尖峰,并弥补大语言模型(LLM)工作负载在空闲阶段产生的短暂功率低谷。
- 长时存储(秒到分钟级):在公用设施互联侧配置大型设施级电池储能系统(BESS)。该系统适用于调节规模较大、变化较慢的电力需求波动,例如整体工作负载的升降,并可在切换至备用发电机时提供持续供电支持。
800 VDC 架构是推动该策略落地的关键因素。目前,数据中心的能源存储通常基于交流电源供电连接;而采用 800 VDC 后,能够更灵活地将储能设备部署在适宜的位置。
新一代 AI 工厂中的 800 VDC 配电系统
新一代 AI 工厂将从当前的交流配电模式逐步转向 800 VDC 直流配电模式。现有的架构包含多个功率转换环节:首先,来自电网的中压电能(例如35 kVAC)被降压至低压水平(例如415 VAC);随后,该电能经由交流不间断电源(UPS)调节后,通过配电单元(PDU)和母线槽系统传输至各个计算机柜。在每个机柜内部,多个电源单元(PSU)将415 VAC转换为54 VDC,并将直流电输送至计算托架,再通过板级DC-DC转换器完成最终的电压调节。
未来愿景是在设施层面集中完成所有交流到直流的转换,构建一个原生直流数据中心。在该架构中,中压交流电通过大型高容量电源转换系统直接转变为800 VDC,随后将该800 VDC配电至数据中心内的各个机架。这一设计通过去除交流开关设备、转换器和PDU层级,大幅简化了电力系统结构。不仅提升了可用于创收计算设备的空间利用率,还实现了系统整体的简化,并提供了一条清洁高效的高压直流主干,便于在设施层面直接集成储能系统。
向完全实现的800 VDC架构的过渡将分阶段推进,为行业提供充足的适应时间,同时促进组件生态系统的逐步成熟。
NVIDIA MGX 架构将随着即将推出的 NVIDIA Kyber 机架架构的演进而持续发展,该架构采用新型 800 VDC 设计(参见图 2)。电力以高压形式直接输送至各个计算节点,在后续阶段通过高比率 64:1 LLC 转换器高效地将电压降至靠近 GPU 所需的 12 VDC。这种单级转换方式相比传统的多级转换方法更加高效,且占用面积减少 26%,从而释放出处理器周边宝贵的布局空间。
未来之路:呼吁各方携手合作
这一转变无法孤立完成,亟需全行业迅速而集中的协同合作。像开放计算项目(OCP)这样的组织为制定开放标准提供了重要平台,有助于确保互操作性、加快创新步伐,并降低整个生态系统的成本。业界必须在800 VDC环境下统一通用的电压范围、连接器接口以及安全规范。
为加快技术应用,NVIDIA 正与数据中心电气生态系统中的多家主要行业合作伙伴展开合作。
- 芯片供应商:AOS、ADI、Efficient Power Conversion、Infineon Technologies、Innoscience、MPS、Navitas、onsemi、Power Integrations、Renesas、Richtek、ROHM、STMicroelectronics、Texas Instruments。
- 动力系统组件供应商:Bizlink、Delta、Flex、Lead Wealth、LITEON、Megmeet。
- 数据中心电源系统供应商:ABB、Eaton、GE Vernova、Heron Power、Hitachi Energy、Mitsubishi Electric、Schneider Electric、Siemens、Vertiv。
我们将发布一份关于适用于新一代 AI 基础设施的 800 VDC 架构的技术白皮书,并在 2025 年 OCP 全球峰会上详细介绍相关成果。欢迎有意支持 800 VDC 架构的公司与我们联系,获取更多信息。