AI 工厂正在改变数据中心基础设施的功能。
与传统数据中心不同,AI 工厂旨在大规模制造智能。它们运行功率密集型训练和推理工作负载,越来越多地支持代理式模型和推理模型,并且即使计算需求迅速变化,也必须提供可预测的性能。在这种环境中,电气基础设施不再只是一个后台实用程序。它是生产系统的一部分。
这也是电池能量存储系统 ( BESS) 迅速成为 AI 工厂必不可少的基础设施的原因之一。在适用于 AI 工厂的平台 NVIDIA DSX 中,BESS 是更广泛的 AI 工厂驱动架构的一部分,而不是独立的插件。随着加速计算园区规模的扩大,运营商发现功率不再只是容量问题。这是一个控制、质量和互连问题。
经过合理设计的 BESS 可以帮助 AI 工厂更快地连接、更可靠地运营、减少对电网和现场生成的压力,并管理大规模 AI 工作负载所产生的快速变化的负载配置文件。本文将探讨 BESS 为何在 AI 工厂驱动架构方面变得至关重要,以及为生产部署设计和验证这些系统所需的条件。

BESS 是一个集成 系统,将电池与功率转换系统 (PCS) 、先进的遥测和动态控制方案相结合。电池可以储存能量,但逆变器和控制器可使系统与电网进行交互,从而决定实时吸收、注入和调节功率的方式。BESS 是一种智能、可控的电力资产,而非被动能源容器。
精心设计的 BESS 可以缓冲快速负载波动,提高电能质量,支持低电压穿越,与现场生成协调,实现更流畅的源传输,并为公用事业提供更稳定的电网友好型负载配置文件。它还与各种发电和可再生资源无缝集成,包括天然气发动机、燃料电池和太阳能光伏 (PV) ,AI 工厂越来越依赖这些资源来实现碱基负载和碳目标,从而在这些来源之间发挥共同的缓冲作用。
最后一种能力正变得越来越重要。随着 AI 工厂的规模扩大到数百兆瓦甚至更高,电力可用性正逐渐成为部署的最大门控因素之一。长期互连时间线的主要驱动因素是新 AI 工厂的总需求激增,超过了可用的电网容量,而传输空间、发电队列和变电站的交付周期都受到限制。
这正是 BESS 在互连阶段如此重要的原因。在根据公用事业和系统运营商的要求进行适当建模、调试和协调后,BESS 可以帮助将数据中心转变为更灵活、更可控的负载,并解锁受限的电网容量,这就是为什么许多公用事业和独立系统运营商 (ISO) 为可以提供负载灵活性的站点引入加速互连路径的原因。与此同时,BESS 可帮助站点满足不断变化的技术互连要求,例如负载平滑、穿越和电能质量合规性。
这将重构 BESS 对话。问题不再只是电池系统是否应该包含在 AI 工厂设计中。问题在于如何设计和验证 BESS,使其作为工业规模 AI 助力架构的一部分可靠地运行。
BESS 在 AI 工厂中的重要性
传统数据中心通常以更加渐进和多样化的工作负载行为运行。AI 工厂与众不同。从电网规划的角度来看,它们相当于大型计算负载:功率密集型、快速变化,并且与现场发电、UPS 系统和 BESS 的连接日益紧密。其基础设施针对加速计算进行了优化,集群可以在电力需求方面造成快速变化,而且整体设施规模还在不断攀升。
这些变化会影响整个电气链:公用事业互联、现场生成、开关设备、变压器、电源转换设备和园区控制。管理这种规模的快速坡道和大型集中负载需要正确的控制和缓冲系统。
BESS 正是为此而设计,并通过多种方式帮助应对这些挑战。
首先,它补充了 AI 负载平滑工作。该行业,尤其是 NVIDIA,正通过 GPU 级和机架级技术积极地从源头遏制功率波动,并且 AI 负载的表现也在逐渐改善。BESS 通过充当设施规模的缓冲区或备份来补充这些工作,在剩余瞬变到达上游系统时吸收或注入电力,帮助保护发电机和电网接口,并提高站点的整体稳定性。
其次,它支持干扰穿越。履行这一职责需要基础设施能够可靠地穿越干扰,并有助于恢复,而不是使其复杂化。
长期以来,在发生故障时通过备用系统为关键负载供电一直是标准做法,但如今的电网穿越要求要严格得多。BESS 有助于弥合这一差距:它允许负载在其备份源上保持稳定,同时站点满足网格侧穿越期望。规模适当且经过调试的 BESS 可以同时支持这两种技术,从而弥合备用电源连续性与电网侧穿越合规性之间的差距。
第三,它提高了运营灵活性。AI 工厂可以采用并网、协调的现场生成或孤岛式配置,具体取决于现场设计和当地条件。BESS 桥接这些模式,支持黑启动,并在站点不能完全依赖电网时有助于电压和频率调节。
最后,它加速了电源就绪。没有 BESS 的 AI 工厂在获得电力方面可能会面临更长的延迟,因为它们更难以干净地集成到电气系统中。从公用事业和电力系统规划人员的角度来看,BESS 显著改善了站点的行为方式,有助于将受限的互连时间线转变为可解决的工程问题。

为 AI 工厂设计 BESS 不仅限于电池容量
BESS 面临的设计挑战要比按兆瓦时调整电池功率更为复杂。
在 AI 工厂中,BESS 应被视为电网交互控制系统,在该系统中,大小和控制应同时进行。电池、功率转换系统、控制、遥测、建模、故障响应和充电状态策略都需要结合设计。
站点模型还需要表示计算负载本身,而不仅仅是 BESS。其中包括 IT 和非 IT 负载行为、爬升率、预期最低和最高需求、功率因数、UPS 工作模式、保护设置、重新连接逻辑、现场生成行为和 BESS 控制。如果没有这种级别的建模细节,规划人员就无法可靠地评估站点在正常运行、干扰或恢复期间是否会支撑电网或承受电网压力。
这意味着成功的设计始于正确的性能目标。
其中一个目标是稳定来源。随着机架级平滑度的不断发展,BESS 应捕获到达上游系统的剩余负载波动,从而保护发电机免受急剧波动的影响,并帮助保持电网稳定性。
另一个是网格自适应操作。BESS 必须支持多种配置的系统:电网连接、生成器协调和孤岛化;并以稳定的控制行为处理它们之间的过渡。
电流限制行为是另一个关键的设计因素。 虽然由于代码和标准的原因,电流限制是大多数逆变器所固有的,但必须在设计练习中定义这些限制下的特定限制和行为。运营商需要可预测的有功和无功功率行为、透明的优先规则以及事件发生后的稳定恢复。
为了实现上述所有目标,快速遥测、实时分析以及能够根据这些数据采取行动的控制架构必须成为设计的核心。遥测是任何动态响应的起点。电压、电流、有功功率、无功功率、频率、充电状态、警报和极限状态等核心信号需要实时可用,并且需要足够紧密地对齐以进行操作和事后诊断。
最后,系统必须在执行所有功能时管理能源空间。AI 工厂可能会要求 BESS 处理瞬变稳定、保持备用以备不时之需,并参与需求响应或发电机协调。这些任务可以相互竞争。因此,该设计需要明确的优先级和明确的策略,以防止不受控制的电荷状态漂移。
验证是设计变得可信的地方
每个工程索赔都需要验证,AI 工厂也不例外。事实上,这些设施必须提供的投资规模和性能指标使其更有说服力。
这里的独特之处在于,AI 工厂代表着一种真正的新型基础设施,而现有标准无法解决这一问题。NVIDIA 正在帮助定义此应用的严格验证模式,从集成系统 BESS 开始。
互连标准已经存在,但尚未涵盖 AI 工厂需要的行为:负载平滑、电网连接模式和孤岛模式之间的过渡自适应操作,以及现场生成的协调响应。操作的先例也很有限;很少有部署能够运行足够长的时间来为这些任务建立性能基准。
NVIDIA 正通过其 BESS 自我认证指南填补这一空白,为供应商提供了一种结构化的方式,使其能够根据 AI 工厂的特定要求来展示产品功能,并为数据中心开发者提供了信心十足地采用这些功能的依据。在 DSX 中,该验证方法支持电源架构,其中 BESS 作为系统级组件集成,而非作为独立的电池资产处理。
该框架还非常符合新出现的监管和可靠性要求,这些要求越来越多地要求对大型电力系统上的 AI 工厂行为进行可视化和可预测性。Self-Qualification 专注于动态稳定性、能量缓冲以及遥测和控制架构,使电网运营商能够观察和预测站点行为,从而预测这些预期

该指南提供了一个实用框架,用于验证 BESS 是否可以在并网和孤岛式配置中支持 AI 负载缓冲、需求响应和穿越功能。这个过程的重点是工程学科,而不是官僚主义。如果声称具备某种能力,则必须提供证据支持。这些证据应延伸到调试阶段。
对于 AI 工厂,验证应包括工模型验证、运行模式的功能测试、实际情况下的全负载和空载测试证据、监督控制和数据采集 (SCADA) 和遥测点检查、保护和控制设置验证,以及与受影响的公用事业、系统运营商和附近的发电站所有者的协调。
这些证据包括硬件测试数据和基于模型的分析。该指南认识到,某些边缘案例无法直接在每种环境中进行测试,因此合作伙伴需要为站点级集成研究提供电磁瞬变模型和小信号伪影。同样重要的是,通过设备级认证并不能自动保证现场的完全稳定性。集成仍然很重要。
认证流程反映了数据中心设计师需要回答的真正问题。
- 系统能否提供准确、完整的遥测数据?
- 它能否提供足够详细的干扰记录和故障事件数据,以便进行事件后分析和根本原因审查?
- 它能否在孤岛运行时调节电压和频率,而不会出现不稳定的振荡?
- 当功率转换系统在有功功率优先、无功功率优先或混合模式下达到当前限制时,会发生什么情况?
- 它能否缓冲类似 AI 的道曲线,同时在弱电网条件下保持稳定?
- 它能否支持穿越事件、源传输、生成器跟踪行为和黑色启动?
- 它能否在平衡多个同时任务的同时管理一段时间内的状态充电?
这些行为决定了 BESS 是否真正为 AI 工厂任务做好了准备。
为什么认证流程很重要,但不应该是整个过程
仅凭资格是不够的。
验证的价值在于它为技术透明度、再现性和可比性创建了一个通用基准。它为设计师和运营商提供了一种根据一致的 AI 工厂特定标准评估产品的方法。 在快速发展的市场中,这一点尤为重要,因为 AI 工厂的需求仍在定义之中,产品能力也在不断发展。
资格认证可奠定基础并为设计流程提供支持。
真正的目标是构建在实际操作条件下表现良好的电源架构。其中包括公用事业交互、现场生成协调、园区控制集成、保护理念、可制造性、可维护性和大规模可靠性。NVIDIA 认证框架认识到了这一点,不仅将性能测试扩展到业务就绪程度、供应链可信度、质量系统和可靠性证据。
这种更广泛的视角很重要,因为 AI 工厂是工业部署。如果系统符合设备级资格,但无法按照所需规模制造、进行高效维护或由可靠的质量流程提供支持,则无法为生产基础设施做好准备。
构建新一代 AI 工厂
NVIDIA 将 AI 工厂描述为一种新型基础设施,旨在大规模生产智能。这种转变提高了每个支持系统的标准,包括功率。
在这种环境下,BESS 正在成为 AI 基础设施的赋能技术,有助于释放受限的电网容量,集成不同的发电源,支持穿越需求,并在电力需求变得更加动态化时保持稳定性。因此,AI 工厂的连接速度更快,在整个运营范围内的行为更可预测。
取得成功的团队包括:尽早将 BESS 集成到站点的电气设计中,定义明确的性能目标,使用真实证据验证这些目标,并随着设施的发展而保持模型、设置和研究的最新状态,改变运营模式,或重新用于新的 AI 工作负载。这也是 BESS 在 DSX 中发挥的作用:作为 AI 工厂功率堆栈的集成组成部分,有助于提高大规模 AI 基础设施的可预测性、可控性和可部署性。
AI 计算正在迅速发展。它背后的动力系统需要同样快速地发展,而 BESS 是这种发展的核心。
开始使用
阅读这些 BESS 自我资格指南。加入 NVIDIA 合作伙伴网络,与您的 NVIDIA 合作伙伴网络经理合作,将您的解决方案集成到适用于 AI 工厂的 DSX Blueprint 中。