当前位置:首页 >> 机械/仪表 >>

异常数据识别-格拉布斯表


数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。数 据作为研究依赖的基础资源, 其质量好坏直接关系到以此为据的正确性和科学性。 所谓异常 数据就是数据集中与其它数据明显不一致的数据。 异常数据的产生原因有很多, 可能是数据 产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入及 传输错误;测量单位混乱;虚报、瞒报使统计数据失

真;丢失数据等人力可控因素造成的。 异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方 差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体 的推断、 控制与预测等工作可能会不准确或者出现错误, 进一步甚至可能造成宏观决策上的 失误,带来不可挽回的损失。因此,异常数据的识别和剔除具有重要意义。异常数据识别有 物理识别法和统计识别法。 物理识别法是根据人们对客观事物已有的认识, 识别由于外界干 扰、 人为误差等原因造成实测数据偏离正常结果, 在实验过程中识别, 随时剔除的一种方法。 统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于 随机误差范围,将其视为异常数据剔除的一种方法。当物理识别异常数据不易做到时,一般 采用统计识别法。 对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则(3@准则)法、 格拉布斯(Grubbs)准则法、狄克逊(Dixon)准则法、肖维勒(Chauvenet)准则法、罗马诺 夫斯基(t 检验)准则法。拉依达准则法简单,无需查表,用起来方便,测量次数较多或要 求不高时用,当测量次数小于或等于 10 时,拉依达准则法失效。肖维勒准则是经典方法, 改善了拉依达准则, 过去应用较多, 但它没有固定的概率意义, 特别是测量数据 n 无穷大时, 该准则失效。狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中异常数 据的个数不止一个且出现在同侧时, 该方法的检验效果不好, 尤其同侧的异常数据很接近时 效果更差,易遭受到屏蔽效应。罗马诺夫斯基准则法计算较为复杂。格拉布斯准则和狄克松 准则给出了严格的结果, 但同样存在狄克逊准则法的缺陷, 朱宏等人采用数据的中位数取代 平均数,改进得到了更为稳健的处理方法,有效地消除了同侧异常数据的屏蔽效应。国际上 常推荐采用格拉布斯(Grubbs)准则法,对此采用改进型格拉布斯准则法。

▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些 数据称作 可疑 概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个 这些 数据称作“可疑 这些)数据称作 概述 例如格拉布斯(Grubbs)法判断,能将 可疑值 从此组测量数据中剔 法判断, 可疑值”从此组测量数据中剔 值”。如果用统计方法 例如格拉布斯 。如果用统计方法—例如格拉布斯 法判断 能将“可疑值 除而不参与平均值的计算,那么该 可疑值 就称作“异常值 粗大误差)”。 可疑值”就称作 异常值(粗大误差 除而不参与平均值的计算,那么该“可疑值 就称作 异常值 粗大误差 。本文就是介绍如何 用格拉布斯法判断“可疑值 是否为 异常值”。 用格拉布斯法判断 可疑值”是否为 异常值 。 可疑值 是否为“异常值

▲测量数据:例如测量 10 次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、 测量数据: 测量数据 = ,获得以下数据: 、 、 、 、 、 、 、 10.1、7.7、6.0。 、 、 。 ▲排列数据:将上述测量数据按从小到大的顺序排列,得到 4.7、5.4、6.0、6.5、7.3、7.7、 排列数据:将上述测量数据按从小到大的顺序排列, 排列数据 、 、 、 、 、 、 8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。 、 、 不是最小值就是最大值。 、 。可以肯定,可疑值不是最小值就是最大值

▲计算平均值 x-和标准差 s:x-=7.89;标准差 s=2.704。计算时,必须将所有 10 个数据全 计算平均值 : ; = 。计算时, 部包含在内。 部包含在内。

▲计算偏离值:平均值与最小值之差为 7.89-4.7=3.19;最大值与平均值之差为 14.0-7.89 计算偏离值: 计算偏离值 - = ; - =6.11。 。 ▲确定一个可疑值:比较起来,最大值与平均值之差 6.11 大于平均值与最小值之差 3.19, 确定一个可疑值:比较起来, 确定一个可疑值 , 是可疑值。 因此认为最大值 14.0 是可疑值。 ▲计算 Gi 值:Gi=(xi-x-)/s;其中 i 是可疑值的排列序号 计算 ; ——10 号;因此 G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。由于 x10-x-是残差,而 s 是 是残差, = - = 。 标准差, 是残差与标准差的比值。 标准差,因而可认为 G10 是残差与标准差的比值。下面要把计算值 Gi 与格拉布斯表给出的 比较, 临界值 GP(n)比较,如果计算的 Gi 值大于表中的临界值 GP(n),则能判断该测量数据是异常 比较 , 与两个参数有关: 值,可以剔除。 可以剔除。但是要提醒, 但是要提醒,临界值 GP(n)与两个参数有关:检出水平 α(与置信概率 P 有关 与两个参数有关 与置信概率 有关) 和测量次数 n(与自由度 f 有关 。 与自由度 有关)。 ▲定检出水平 α:如果要求严格,检出水平 α 可以定得小一些,例如定 α=0.01,那么置信 定检出水平 :如果要求严格, 可以定得小一些, = , 概率 P=1-α=0.99;如果要求不严格,α 可以定得大一些,例如定 α=0.10,即 P=0.90; = - = ;如果要求不严格, 可以定得大一些, = , = ; 通常定 α=0.05,P=0.95。 = , = 。 ▲查格拉布斯表获得临界值:根据选定的 P 值(此处为 0.95)和测量次数 n(此处为 10),查格 查格拉布斯表获得临界值: 查格拉布斯表获得临界值 此处为 和测量次数 此处为 , 拉布斯表, 拉布斯表,横竖相交得临界值 G95(10)=2.176。 = 。 ▲比较计算值 Gi 和临界值 G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。 比较计算值 : , = , 。 ▲判断是否为异常值:因为 Gi>G95(10),可以判断测量值 14.0 为异常值,将它从 10 个测 判断是否为异常值: 为异常值, 判断是否为异常值 , 量数据中剔除。 量数据中剔除。

▲余下数据考虑:剩余的 9 个数据再按以上步骤计算,如果计算的 Gi>G95(9),仍然是异常 余下数据考虑: 个数据再按以上步骤计算, 余下数据考虑 , 个数据中没有异常值。 值,剔除;如果 Gi<G95(9),不是异常值,则不剔除。本例余下的 9 个数据中没有异常值。 剔除; ,不是异常值,则不剔除。

格拉布斯表——临界值 GP(n) 临界值 格拉布斯表

P 0.95 n
3 4 5 6 7 8 9 1.135 1.463 1.672 1.822 1.938 2.032 2.110 1.155 1.492 1.749 1.944 2.097 2.231 2.323 2.410 2.485 2.550 2.607 2.659 2.705 2.747 0.99

P
0.95 0.99 2.785 2.821 2.854 2.884 2.912 2.939 2.963 2.987 3.009 3.103 3.178 3.240 3.292 3.336

n
17 18 19 20 21 22 23 24 25 30 35 40 45 50 2.475 2.504 2.532 2.557 2.580 2.603 2.624 2.644 2.663 2.745 2.811 2.866 2.914 2.956

10
11 12 13 14 15 16

2.176
2.234 2.285 2.331 2.371 2.409 2.443

T0(n, α)值表

对异常值及统计检验法的解释

■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量 测量过程是对一个无限大总体的抽样:对固定条件下的一种测量, 测量过程是对一个无限大总体的抽样 下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体; 下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换 一个角度看,本来就存在一个包含无穷多测量数据的总体。 一个角度看,本来就存在一个包含无穷多测量数据的总体。实际的测量只不过是从该无限 的样本。 大总体中随机抽取一个容量为 n(例如 n=10)的样本。这种样本也可以有无数个,每个样本 例如 = 的样本 这种样本也可以有无数个, 相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。 相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。通常的目的 是用样本的统计量来估计总体参量。总体一般假设为正态分布。 是用样本的统计量来估计总体参量。总体一般假设为正态分布。

■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常 异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况: 异常值区分 值不属于该总体,抽样抽错了,从另外一个总体抽出一个 一些 数据, 一些)数据 值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些 数据,其值与总体平均值相 差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现, 差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现, 比如说超过 3σ 的数据,出现的概率很小。用统计判断方法就是将异常值找出来,舍去。 的数据,出现的概率很小。用统计判断方法就是将异常值找出来,舍去。 ■犯错误 1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将 犯错误 :将本来不属于该总体的 第一种情况的异常值判断出来舍去,不会犯错误; 来不属于该总体的、 本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。 本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。

■犯错误 2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出 犯错误 :还有一种情况, 来,统计检验方法判断不出它是异常值,就会犯另外一种错误。 统计检验方法判断不出它是异常值,就会犯另外一种错误。

■异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度 异常值检验法 峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。 峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。

■格拉布斯法最佳:每种统计检验法都会犯犯错误 1 和错误 2。但是有人做过统计,在所有 格拉布斯法最佳: 格拉布斯法最佳 。但是有人做过统计, 方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。 方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。

■多种方法结合使用:为了减少犯错误的概率,可以将 3 种以上统计检验法结合使用,根据 多种方法结合使用:为了减少犯错误的概率, 种以上统计检验法结合使用, 多种方法结合使用 多数方法的判断结果,确定可疑值是否为异常值。 多数方法的判断结果,确定可疑值是否为异常值。

■异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄 异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错, 异常值来源 错,算错,转移错误。 算错,转移错误。


相关文章:
异常数据识别-格拉布斯表
异常数据识别-格拉布斯表_机械/仪表_工程科技_专业资料。异常数据识别中,使用格拉布布斯准则时需要查询的表格(部分)。我从网上收集整理的。...
用格拉布斯准则判断异常数据
2. 3. 数据个数可输入; 格拉布斯系数 g 以表的形式存于数组中; 显示均值、标准偏差等中间结果、被剔除的异常数据、显示无异常数据 的测量数据等。 三、实验...
格拉布斯法—异常值判断
算值 Gi 与格拉布斯表给出的临界值 GP(n)比较, 比较, 如果计算的 Gi 值大于表中的临界 则能判断该测量数据异常值 可以剔除 但是要提醒, 异常值, 剔除。...
格拉布斯异常值判定
格拉布斯临界值检验表WO... 3页 7下载券 异常数据识别-格拉布斯表... 5页...▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“...
基于格拉布斯法与马氏平方距离法对异常数据的检验
基于格拉布斯法与马氏平方距离法对异常数据的检验_数学_自然科学_专业资料。龙源...分析 以某班 11 名学生的为例,共有 6 个测试项目, 各指标实测数据见表 1...
秒表测时法—数据处理:格拉布斯准则剔除异常值
秒表测时法—数据处理:格拉布斯准则剔除异常值_企业...然后把计算值 Gi 与格拉布斯表(见附表)所给出的...统计数据异常值的识别及... 4页 免费 2012年数学...
格拉布斯临界值检验表WORD
格拉布斯临界值检验表WORD_机械/仪表_工程科技_专业资料。指数分布异常值检验格拉...关于异常值的检验与处理 5页 免费 异常数据识别-格拉布斯表... 5页 2下载券...
高速公路补充预算定额原始数据异常值的改进格拉布斯法应用研究
高速公路补充预算定额原始数据异常值的改进格拉布斯法应用研究_临床医学_医药卫生_...格拉布斯表 38人阅读 5页 免费 格拉布斯法—异常值判断 4927人阅读 3页 1下载...
格拉布斯Grubbs检验法
下面要把计算值 Gi 与格拉布斯表给 比较, 出的临界值 GP(n)比较,如果计算的 Gi 值大于表中的临界值 GP(n),则能判断该测量数据异常值,可以剔除。但是...
格拉布斯临界值表
格拉布斯临界值表_机械/仪表_工程科技_专业资料。数据统计处理n 3 4 5 6 7...异常数据识别-格拉布斯表... 5页 2下载券 如何选用格鲁布斯检验法... 2页 ...
更多相关标签:
格拉布斯准则 | 格拉布斯 | 格拉布斯检验法 | 格拉布斯表 | 格拉布斯准则法 | 格拉布斯法 | 格拉布斯准则表 | 格拉布斯准则 matlab |