联想为未来更快、更密集、更热的 HPC 系统带来十年的液冷体验
HPC 系统客户(和供应商)一直在追求更高的计算能力和相同或更高的节点密度。但随之而来的是更多的功耗、更多的热量产生和不断上升的冷却成本。正因为如此,IT 业务——在 HPC 和超大规模领域的推动下——在按功耗排名的行业名单中不断攀升。据 ITProPortal 称,到 2030 年,数据中心的用电量预计将增长 50%。
更高的电力消耗和成本以及更高的碳排放量的结合越来越受到人们的关注,并已成为 HPC 的限制因素。考虑一下这一点:一个 exascale 系统的年度电费预计将接近 2000 万美元,有人认为,下一个伟大的超级计算吞吐量里程碑 zettascale(1000 exaFLOPS)使用当前的技术和电源实际上是不可能的。
面对这种黯淡、高消耗、高碳的未来,HPC服务器市场越来越多地转向节能液冷来压低能源成本。从空气冷却过渡最初被认为是一个冒险的提议。但随着水冷技术的成熟,这种前景已经发生了显着变化,因为它们已经在超级计算中心多代实施,其中包含一些世界上最强大和最昂贵的 HPC 系统。
作为 HPC 领域的早期液体冷却创新者,系统制造商联想将其首次主要的水冷安装日期追溯到 2012 年,在欧洲最大的超级计算中心之一(更多内容见下文)。该公司的Neptune™液体冷却技术系列提供三管齐下的冷却方法,可以一起使用或单独使用:直接温水冷却 (DWC)、液体辅助空气冷却和后门热交换器 (RDHX),以及与其他技术,如旨在更有效地运行系统的软件。
联想在使用温水冷却方面领先于 HPC 服务器行业——水越暖,在流经服务器之前或之后冷却它所消耗的能量就越少。您可能认为 122 度(华氏度)的水无法冷却服务器,但联想正在这样做。该公司还在开发水循环能力,可以将 HPC 中心推向碳中和状态,甚至可能在未来实现负碳排放。
另一个不同点是,Neptune™ DWC 技术利用防漏铜管使水循环通过比其他任何技术更多的系统组件。这种全面的液体冷却方法可消除服务器产生的 90% 以上的热量。
让我们看看联想最高性能、最密集封装的服务器,采用 Neptune™ 直接温水冷却技术的无风扇 ThinkSystem SD650-N V2 GPU 服务器,HPC-AI/超大规模系统。它利用高达 50⁰C/122⁰F 的水来去除两个第三代英特尔至强可扩展 CPU、四个 NVIDIA HGX A100 GPU 和 NVIDIA HDR InfiniBand 网络以及内存、网络接口控制器、本地存储和电压调节器的热量。
另一个好处:与风冷相比——高转速风扇和空调轰鸣——水冷要安静得多。因此,随着温室气体污染的减少,ThinkSystem SD650-N V2 减少了令人伤脑筋的噪音污染。
联想报告称,该服务器可将数据中心冷却成本降低 30% 至 40%,并支持低于 1.1 的 PUE 等级,具体取决于数据中心设计。它还可以在不增加更多计算机房空调 (CRAC) 设备的情况下实现数据中心的增长。据联想称,由于液体冷却可使服务器在较低温度下运行,Neptune™ 延长了部件和服务器的使用寿命。
一个标准的 42U 机架可容纳 36 台此类服务器,并提供高达 2PFLOP 的计算性能,足以在当前世界上最强大的超级计算机TOP500名单中获得一席之地。
展望未来,随着 CPU、GPU 甚至内存 DIMM 和 NIC 的功耗稳步攀升,该行业面临着日益严峻的散热挑战。2006 年,安装在礼来公司的联想 HPC 系统的 56 点、224 核机架需要 20kW 的电力;到 2018 年,位于慕尼黑莱布尼茨超级计算中心 (LRZ) 的联想 SuperMUC-NG 超级计算机中的72节点/3,456 核机架每个机架消耗 46kW。ThinkSystem SD650-N V2 每个机架的功率为 80 kW,联想预计到 2024 年其高端系统将消耗 180 kW。
十多年来,LRZ 一直是节能超级计算领域的先驱。从2012年到今年年底,四代IBM/联想水冷超级计算机已经在LRZ站了起来。这是一个利用联想最先进的液体技术的突破性站点,该公司随后将其扩展到更广泛的 HPC 行业。
联想 HPC 客户解决方案总监 Martin Hiegl 表示,联想冷却领先地位的一个关键是其在推进液体相关技术方面的长期经验。以联想 HPC 服务器中使用的散热器为例。
“闪亮的铜水回路和大歧管是联想海王星最明显的部分,”Hiegl 说。“然而,秘诀在于整个系统的布局,以实现稳定的冷却能力,在不同的热源上具有低压,甚至是散热器本身内的微翅片等微小细节。我们联想工程师带来的十多年经验使他们在设计方面处于行业领先地位。”
此外,Hiegl 表示,联想工程师专注于在处理器之间实现一致的运行温度。
“例如,你希望在不同 CPU 之间保持温度平衡,”他说。“这就是为什么我们在节点上的水循环经过精心设计,可以为不同的热源带来最佳冷却效果,这样您就不会让一个 CPU 在 80 摄氏度下运行而另一个 CPU 在 90 摄氏度下运行,这会产生热抖动在同一节点上的两个 CPU 之间具有不同的性能。我们专门设计我们的系统来避免这种情况。我们在这方面的十年经验是其他人无法提供的。”
回顾 2012 年——当时 HPC 级服务器只有 CPU,产生的热量少得多——液体冷却是当时让一些人感到紧张的一种新方法。联想副总裁兼 HPC 和 AI 总经理 Scott Tease 是在 LRZ 安装公司第一台超级计算机的团队的一员。
“我们有点吓坏了,它有 9700 个节点,有史以来第一次液体冷却,这让我们感到紧张,”他在播客采访中告诉 StorageReview。“但这是一个令人难以置信的故事,从那以后,客户一直很高兴。其中一些节点刚刚停止生产……这就是它的生产时间。但我们在海王星和液体冷却中看到的情况是,使用液体冷却的理由比十年前还要(更强)。”
他说,LRZ 有令人信服的成本动机,因为德国的电力成本是美国的两倍。 Tease 说,每月可节省数十万欧元。
底线:LRZ 估计液体冷却和联想围绕它进行的所有优化已将其能源成本降低了 30%。
从长远来看,联想希望与 LRZ 等客户合作,这些客户已经回收 HPC 系统加热的水,用于加热建筑物,并通过吸附技术产生更冷的水,以实现更广泛的冷却影响,并结合其他可再生能源,以消除碳完全排放。
Tease 说,这样的愿望支持了 HPC 社区日益增长的可持续性伦理,其中液体冷却发挥了关键作用。“这让我感到惊讶,它在全球范围内如此广泛,”他说。“人们从能源效率和碳减排的角度来看待液体冷却及其优势。它在全球范围内引起普遍共鸣。”
成都联想ThinkSystem服务器总代理 - 成都强川科技有限公司,专注企业IT服务需求,产品可按需定制。主营:联想ThinkSystem服务器、联想电脑(笔记本/台式机)、联想ThinkStation工作站、联想存储设备,以专业的IT解决方案和优质的服务体验赢得企业信赖。QQ:2851150694;服务热线:028-85024766 18215624006(微信同号)