大功率可插拔光模块的先进热管理策略

2024年8月29日
热管理在提高大功率可插拔光模块的可靠性和效率方面发挥着举足轻重的作用。了解分冷和液冷的最新策略,探索光模块冷却 […]

热管理在提高大功率可插拔光模块的可靠性和效率方面发挥着举足轻重的作用。了解分冷和液冷的最新策略,探索光模块冷却的未来。

芯片间以及芯片与内存间通信的带宽正成为现代计算系统的瓶颈。因此,提高系统组件间的吞吐量是重中之重。尽管为提高互连系统效率和开发更加复杂的通信协议做了许多工作,但对更高吞吐量的需求必然伴随着散热成本,因为这些模块的功耗会增加。人工智能 (AI) 的最新进展正在推动这些迅速变化,包括从 112 Gbps-PAM4 过渡到 224 Gbps-PAM4 以及采用下一代 1.6T 模块。

数据中心热管理现状

数据中心电子系统的热管理目标是,在指定负载和条件下将组件温度保持在安全运行范围内。这些温度范围是根据温度与使用寿命的关系及其在现场的目标使用寿命确定的。其他运行方面(如电压)和环境因素(如湿度或环境温度波动)也会影响数据中心环境中零部件的使用寿命。
有效的热管理策略应考虑多种因素,包括功耗功率密度及其空间分布,以及目标系统负载和运行条件的时间和瞬态特性
保持更低的工作温度可提高组件可靠性,延长使用寿命。更低的工作温度还能降低系统的整体功耗。要确定系统的最佳工作点并保持能率比,必须在散热方案更高的功率要求与电子元件总体功耗的降低之间取得平衡。
                                                                                      风冷的最新进展

多年来,空气一直是电子系统的首选冷却媒介。与液冷相比,风冷因其在低压工作时的介电性质、大多为惰性、易于应用和较低的实施成本而备受青睐。近几十年来,支持向电子系统输送冷空气和从机架收集热空气的基础设施得到了很好的优化。

在风冷系统中,光模块正上方的气流和模块散热器的策略性热优化——无论是平顶模块 (QSFP-DD) 顶部的鳍片式散热器还是集成散热器 (OSFP)——都能确保高效散热。在使用鳍片式散热器的情况下,必须确保散热器与模块外壳之间良好的热接触,为热量创造一个低热阻的路径。

要做到这一点,首先要优化鳍片散热器。过去,行业专注于将铝挤压散热器更换为密度更高的拉链鳍片式/叠片式散热器。然而,在未来更高功率的模块中,可插拔模块与鳍片式散热器之间的热阻将成为一个新的瓶颈。因此,必须特别要注意改善降低热阻——例如在接触面使用热界面材料 (TIM)。

这些散热器的设计涉及多个考虑因素,包括机械系统要求以及与系统气流和压力动态相关的热性能。现代散热器必须针对这些客户特定的边界条件和系统环境进行优化——适合所有应用的标准散热器选项已不复存在。

除了优化散热器之外,最大程度降低从散热器到模块的下游气路的风阻也很重要。这包括在保持电磁干扰 (EMI) 屏蔽要求的前提下,对机架和连接器进行热优化,在上面增加通风孔从而可以通过最大程度降低风阻。

对于堆叠式机架配置,需要采用协同设计的方法,为将要放置在机架上的模块提供优化的散热器设计。在协同设计中,需要模拟冷却剂流,同时考虑刀片上的所有组件。必须进行全面的系统级分析,以确保所有模块都能获得足够的气流,并最大程度减少模块之间的温差。

                                                                                      液冷的崛起

尽管风冷很有效,但其冷却能力也存在固有的限制。ASHRAE 的《液冷在主流数据中心的兴起和扩张》(2021 年)建议,风冷系统每个芯片的功率限制约为 400 W,而开放计算项目 (OCP) 的《开放加速器模块 (OAM) 设计规范修订版 2.0》(2023 年)中提到,风冷系统的功率限制约为 600 W。不过,高端处理器最近的发展趋势超过了这些限制。处理器这么高的功率需要使用液冷,这种冷却方式可为主处理器提供更加高效、紧凑的解决方案。

这一趋势为系统其他部分(如可插拔光模块,其功率通常比主处理器低)的冷却带来了一个有意思的难题。这些组件仍然需要某种方式的主动冷却。由于 1.6 T 光学元件的功率水平预计将高达 35 W,液冷成为了下一代可插拔光器件中的一个越来越受关注和讨论的领域。

在风冷系统中,这些外围组件将受益于为系统提供的冷却气流,这意味着主系统风扇可以提供足够的气流。在某些液冷系统中,系统是基于混合方法设计的,大功率组件 (ASIC/GPU) 采用液冷方法,而系统的其他部分则采用风冷方法。这些系统需要在机架或刀片上安装风扇,以提供足够的气流。

另一种冷却可插拔光模块的方法是采用冷板系统来有效管理多个光模块的温度。这些系统利用冷板上的独立浮动基座,确保与每个模块(插在可能有不同公差叠加的端口上)都有足够低的热阻。使用该方法部署系统时,会在设计和制造上遇到重大难题,包括:

  • 确保模块之间均匀冷却以及冷板中均匀的流量分布
  • 平衡不同系统组件之间的压降
  • 控制制造复杂性和增加的装配成本
  • 在制造阶段进行更加复杂的测试,以确保最佳性能和可靠性

尽管存在这些难题,但它们并非无法克服。事实上,Molex莫仕已经在实际应用中解决了这些难题。

                                                                                      光模块冷却的未来

对于下一代光模块而言,一个非常重要的优先考虑因素是热流路径的端到端优化,可以最大程度减少从组件结点到冷却媒介(空气或液体)的阻力。这将包括:

  • 优化单个组件的电子封装
  • 确保在印刷电路板上和模块内部放置组件时考虑温度影响
  • 打造从组件到模块表面的低热阻路径(例如,使用高热导率垫片,使用 TIM 来改善接触阻力,使用更高热导率的模块外壳)
  • 改善模块盖的热扩散,避免出现局部热点,这会导致降低冷却效率(例如,在模块中使用铜块和热管)

同样重要的是这些模块热特性分析方法的改变。传统的模块特性分析方法(使用普通的外壳温度限制)会留下余量——对于更大功率的模块来说,余量非常小。

                                                                                      下一代冷却系统的发展之路

对数据中心里大功率光收发器进行更好冷却的需求从未如此迫切。在网络难以满足飞涨的带宽需求时,设计人员无法承担让这些不可或缺的组件过热的后果。

我们已经到了提高系统冷却能力的成败关头,这推动了对性能驱动的热创新的要求。伴随着数据中心不断努力应对日益严峻的散热难题,Molex莫仕始终走在创新的最前沿。

作为 OCP 及其冷却环境项目的活跃参与者,Molex莫仕正在积极开发下一代冷却技术,以满足数据中心日益增长的热管理需求。相信 Molex莫仕能够为数据中心架构提供强大的动态解决方案,这些方案既具有韧性,又面向未来。