你对可靠性测试的分析结果有多大的信心?

Date: September 15,2020

  如何评估故障率的风险


  当我们经由测试数据估计出一个产品或设备的“故障率”时,这个故障率是一个单个数字,例如0.001/小时 (每1000 小时有一个失效)。虽然这可能是我们所能得出的最佳估计值,但它本身并没有给出精确度,也不能帮助我们了解这个估计值的风险有多大。


  故障率的定义为 λ = (测试故障总次数)/(总测试小时数)。假设我们计算出的值为0.001/小时 (每1000 小时有一个失效),如果λ 的真实值会高达到估计值的10 倍,那就是0.01,每100 小时就有一个失效了!反之,如果λ 的真实值只会高到估计值的 1.2倍,那就是0.0012,也就是约每833 小时有一个失效。这里头的差别是很大的。我们想知道λ 的真实值有可能会高达到这个最佳估计值的几倍?这对于以后产品的保修费用和备件数量的准备都有不一样的影响!



  “置信度”的概念


  要帮助我们了解这个估计值的风险有多大,我们需要知道一个称为"置信区间"?(Confidence Interval) 的概念。?其实就是对于这个故障率来估计一个区间范围,有上限及下限。90%"置信区间"是基于?90%?的置信度?(Confidence Level)而来的。意思是说,如果你重复相同的实验很多次(譬如说100?次),并且你一次又一次地使用相同的估计方法来建构一个对于故障率λ?的区间,那么你将得到100个区间。这?100个区间都会有着不同的中心点估计值和宽度(上限及下限的差决定了宽度)。?那么这100个区间里面会有90个区间将包含真实的故障率?λ?值,另外的10个区间没有包含真实的故障率λ?,所以这叫做?90%??(=?90个区间/100?个区间)的?置信度。?很重要的一点是,其实我们是并不知道真实的λ值是多少的,我们只能用这个实验得出的数据来估计它。


consulting-pic.jpg


  一般来说我们仅会做一次实验,而不是100次相同的实验。根据这一次的实验,我们可以用既定的统计手法得出一个区间(一个90%的置信区间),?于是我们说“这个区间有90%?的置信度会包含真实的λ?值?”,而且λ的真实值不在这个区间里的风险只有百分之十(10%)。


  我们知道随机和变异是存在实验过程之中的,所以概率的描述是相对应于实验的过程,而不是相对应于一次实验的数据所计算出来的区间值上。因此我们用置信度来描述这个实验算出来的区间值,而不是用概率来描述。

  我们不说“这个区间值有90% 的概率会包含真实的λ值”。我们说“这个区间值有90% 的置信度会包含真实的λ值”


  举个例子


  如果我们有 25 个计算机内存磁盘的高温老化测试,也有相对应的失效时间。我们可以计算出故障率的估计值为λ = 0.001/小时(每1000 小时有1个故障)。我们也用可靠性的统计手法构建出一个90%的"置信区间“,每1000 小时的下限为0.78个故障,上限为1.25个故障。我们是这样描述的:对于这个计算机内存磁盘在高温老化测试下的故障率,90%的"置信区间“为每 1000 小时 0.78 到 1.25 个故障。


  你可以把90%的置信度看作是描述赌局的赔率(Odds)的一种方式。赔率也就是收益与赌注的比率。假设你是赌局中的庄家,赌局的赔率是9比1,也就是收益(9)与赌注(1)的比。对手下注一元,他赢了,你就得赔他9倍,就是9元。如果对手下注100元,他赢了,你就赔他900元。从庄家的角度来说,庄家赢的可能性是90% = 9/(9+1),对手赢的可能性是10% = 1/(9+1)。你可以把90%置信度看成是你(庄家)赢的可能性。当对手下注十万元,你有百分之九十的“信心”你会赢,只有百分之十的可能性你会输掉九十万元。你之所以有这么大的信心,是因为你对你手上的好牌坚信不移,你的信心越大,你就越敢“赌”。


  回到计算机内存磁盘的故障率,90%的"置信区间“为每 1000 小时0.78到1.25 个故障(这是由25个样本测试所得到的,你相信你的测试及结果,这是你手上的好牌)。因此你深信十次有九次(90%置信度,也是你会赢的信心),这个真实的故障率,最小不会低于0.78,最大不会大于1.25。也就是说,你的信心满满(90%),愿意“赌”一下这个0.78到1.25的这个区间值。


  如果你选用的置信度是99%,那么相对应的赔率是99比1,这是一个非常高的赔率,也就是说你手中的牌得非常好,那你赢的可能性是99% = 99/(99+1)这么高!当对手下注是十万元,你有信心你(庄家)会赢。你也知道,你若输了,你就要赔对手九百九十万元!那么你如何能具备这么高的信心呢?关键在于你的牌得好!


  从工程和技术的层面来说,你就要有许多的证据(如测试数据)给你的信心做支撑。同时,置信区间的宽度也取决于实验样本数量的多寡。样本数量越大,获得的置信区间越窄,估算的准确度相对也高,风险就降低。对于故障率,我们通常使用置信区间的上限,因为我们想要知道故障率最高会有多高。 对于 MTBF(平均失效时间),我们通常使用置信区间的下限,因为我们想要知道这个时间到底会有多低。


获取试用体验