迈向极限:加速老化测试是确保数据中心可靠性的关键

2024年3月1日
在对数据中心内持续运行的系统和设备进行可靠性测试时,我们面临着独特的挑战。为此,我们将它们置于极端环境条件下, […]

在对数据中心内持续运行的系统和设备进行可靠性测试时,我们面临着独特的挑战。为此,我们将它们置于极端环境条件下,加速使其老化,然后对其性能进行测试。

数据中心作为我们这个日益互联化世界的关键基础设施,扮演着至关重要的角色。然而,这些设施的运行环境对内部设备来说可能相当具有挑战性。诸如高温、高湿度和灰尘等因素可能导致系统故障、停机以及数据丢失。因此,对数据中心进行全面的环境测试显得尤为重要。

由于数据中心需要全天候运行,因此对保持其运行的元器件进行长时间可靠性测试变得至关重要。然而,对于可以运行多年的连续工作设备来说,很难花数年时间进行测试。为了解决这个问题,工程师可以采用加速老化测试(ALT)的方法,通过将组件暴露在超出典型运行条件的极端条件下,来更快地确定零件何时会失效,并更好地针对其预期环境对其进行优化。

但加速老化测试的方法也存在一些困难。在数据中心中,传统的运行环境一直是风冷。然而,液体浸没冷却正逐渐成为首选的冷却技术。目前的标准和测试方法尚未解决这种冷却方式中涉及的独特变量问题。

那么,当今的系统架构师和设计工程师如何优化其设备以实现长期可靠性呢?进行加速老化测试是一个很好的起点。

什么是加速老化测试(ALT)?

加速老化测试(ALT)是一种在标准操作参数之外的极端条件下,对产品或组件进行人为老化、故障发现和预测其在正常运行条件下性能的方法。典型的考虑因素包括热循环、湿度、冲击和振动以及其它标准要求。对于数据中心等系统中需要连续长时间运行的设备进行测试,传统方法可能需要数年时间。而加速老化测试(ALT)可以大大缩短这一过程,使制造商能够加快产品开发并确定产品的整体寿命。

加速老化测试(ALT)的类型

ALT通常可以分为两类 – 定量测试和定性测试 – 每类包含多种测试类型(不过我们有时考虑对其进行其它的测试分类)。

定量ALT方法

在定量ALT中,目标是通过让设备提前发生故障来确定设备的预期寿命,并生成数据来衡量设备在受特定影响因素下的可靠性。通常,我们使用以下两种常规类型测试之一完成定量ALT:

在超常环境下加速老化 – 这种方法首选用于测试那些连续运行或使用率极高的产品,这些产品会暴露在超出常规使用条件的环境中。例如,产品或组件可能会遭受极高温度的考验,因为短时间内的极端温度暴露可以精确地等效于预期寿命内的正常温度暴露。同样的方法也适用于湿度和振动等因素的测试。由于数据中设备需要持续运行,因此进行超常环境下的加速老化测试显得尤为重要。

通过增加使用强度来加速老化 – 对于不连续运行的产品,这些测试用于通过以更快或更频繁的使用来使设备更快出故障。例如,对连接器进行测试以确定其可插拔次数,即,连接器在满足性能指标要求的前提下可以连续插拔多少次。为了加快测试速度,当所涉及的机械力与正常工作条件相同时,可以更快地进行插拔,在该测试中只是插拔频率发生了变化。

定性ALT方法

定量ALT生成数据以测量产品在特定应力下的正常运行时间,而定性ALT用于找出故障原因,并且通常在较小的样本量上执行。定性ALT测试各不相同,但可能包括以下两种:

高加速度老化测试(HALT) – 在HALT中,产品会暴露于各种同时出现的且相互独立的环境因素,例如温度和振动,以确定故障发生的位置和原因。尽管这些因素可能与定量ALT中的相同或相似,但HALT的目标不是评估产品的性能,而是确定它是如何失效的。

高加速度应力筛选(HASS) – 在HALT被最终确定且设计工作完成后,HASS可以作为最终测试,以确保制造开始时的可靠性。尽管HASS将待测产品暴露在与HAT相同的因素下,但HASS专门用在生产筛选过程中。

定性ALT测试的变体包括摇晃和烘烤测试、疲劳测试和大象测试。

连接器的ALT测试:EIA-364

EIA-364电气连接器/插座测试程序(包括环境分类)标准是EIA针对电气连接器和插座测试建议的最短测试步骤和程序(包括ALT)。每个EIA-364标准都用于评估特定项目的达标情况,例如插拔力(EIA-364-13)、湿度(EIA-364-31)、可插拔次数(EIA-364-09)或温度极限值之间的冷热循环(EIA-364-110)并根据连接器的部署环境作为连接器性能的基准被遵照执行。

对于数据中心设备,用于评估受控环境应用中电连接器和插座性能的EIA-364-1000环境测试方法是唯一适用的。ECIA-364-1000最初是为商务办公应用而设计的,涵盖了在相对温和、受控的环境中使用的设备,例如数据中心内的设备。

EIA-364测试标准虽然只是建议标准而非强制性标准,但它已成为行业标准,并成为许多制造商的ALT指南。

ALT在液体环境中面临的挑战

虽然EIA-364和其它ALT标准为传统空气环境提供了明确的可靠性指南,但对于液体浸没式冷却应用中使用的元器件,ALT的阐述相对较少。在这方面的挑战是,市场上已经有十几种专有的介电液体,它们的性能各不相同。这是否意味着制造商需要对除空气外的12+液体执行ALT呢?是否需要针对每种介质生产不同的产品?

开放计算项目(OCP)浸没式测试项目旨在组建一个致力于液体浸没式冷却的工作组,利用行业专家的意见和见解来回答这些问题以及更多问题。虽然空气冷却一直是降低数据中心服务器温度的传统方法,但浸没式冷却已被证明更节能、更具成本效益,同时可节省空间。通过浸没式冷却项目,OCP致力于为浸没式冷却解决方案和可采用浸没式冷却的设备制定标准化定义、规范、兼容性要求和最佳实践。

在理想情况下,通过OCP等组织机构的指导,制造商将能够设计出一种在所有液冷和风冷环境中可靠运行的产品。对于系统架构师和设计工程师来说,这将简化物料清单并最大限度地减少混乱和出错风险。工程师们很高兴能在竞争中领先一步。事实上,最近的Molex莫仕的《产品可靠性与硬件设计》调查发现,除了满足当前的要求外,756名受访者中有51%已经努力满足未来可能实行的行业可靠性认证和标准。

Molex莫仕正在为构建更可靠的数据中心铺平道路

作为高速数据中心应用领域的行业先驱,Molex莫仕在ALT功能方面投入了大量资金,并且是OCP(包括沉浸式冷却项目)的积极贡献者。无论采用何种介质,我们都致力于确保数据中心的可靠性能,我们广泛的互连解决方案组合旨在满足当前和不断发展的EIA-364和OCP指导原则。