随着服务器的广泛应用,对服务器的可靠性提出了更高的要求。所谓“可靠性”,就是产品在规定条件下和规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate),常用λ表示。例如正在运行中的100只硬盘,一年之内出了2次故障,则每个硬盘的故障率为0.02次/年。 当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间,简称MTBF。即:MTBF=1/λ 。 标准故障率的曲线可以用众所周知的“浴盆曲线”来描述。所有元件和系统的曲线形状都近似相同-只是时间轴方向上的延伸率不同。它可以分 为三个区域:早期故障期(I),有效工作期(II),生命终期(III)。MTTF包含了区域I和 II,而MTBF只包含了区域(II)。 *I部分描述了早期故障,它通常是由潜在的材料失效或者是在发货前的较终产品*中没被发现的制造缺陷所造成的。早期故障通常持续的时间较短,即使是很复杂的系统在使用了200 小时后也很少再出现早期故障。例如DC-DC转换器来说,大多数早期故障会在使用24小时之内 发生。24小时对保质期为三年的转换器来说可能很短,但是试想一个DC-DC转换器的工作频率为100Hz,开关三极管和变压器在使用的**天就会被操作1亿4千万次以上,因而如果有元件 缺陷的话这段时间内就应该会发生故障。 因为热应力也是增加失效率的原因之一,从早期故障到有效工作之间的过渡时间(T1)可以 通过在热箱中的预烧处理得到显着的缩短。如果产品在高温条件下工作, 那么4小时的预烧时间测试就足以发现几乎所有的早期故障。如果在较终应用中还是出现了早期故障,那么可以增加预烧时间。对于高可靠性的应用装置例如铁轨,预烧时间多为24小 时。 在有效工作寿命阶段,区域II,故障率持续稳定在较低的等级。*二个过渡时间(T2),从 有效果工作寿命阶段到产品的生命终期,受到许多因素的影响,比如设计以及所使用的元件 的质量,制造时的组装质量以及应用的环境压力。区域III表明了产品寿命周期的末期,其间 由于磨损,材料的化学降解和突发故障导致产品性能下降。 大多制造商使用预烧处理来发现主要的早期故障,MTBF特性通常可以在规格书中找到。 一些制造商更倾向于使用MTBF失效率的倒数,基于109小时,称为失效时间(Failures In Time/FIT): 较近看到一款可用于服务器的硬盘,MTBF高达120万小时,保修5年。120万小时约为137年,并不是说该种硬盘每只均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即该硬盘的平均年故障率约为0.7%,一年内,平均1000只硬盘有7只会出故障。