(转)格拉布斯准则(Grubbs Criterion)处理数据异常
格拉布斯准则:https://baike.baidu.com/item/%E6%A0%BC%E6%8B%89%E5%B8%83%E6%96%AF%E5%87%86%E5%88%99/3909586
Grubbs格拉布斯检验临界值表:https://wenku.baidu.com/view/0f3c083a172ded630a1cb6c8.html
简介
Grubbs测试(以1950年发表测试的Frank E. Grubbs命名),也称为最大归一化残差测试或极端学生化偏差测试,是一种统计测试,用于检测假设的单变量数据集中的异常值来自正常分布的人口。
定义
格拉布斯的测试基于正态假设。也就是说,在应用Grubbs测试之前,应首先验证数据是否可以通过正态分布合理地近似。
格拉布斯的测试一次检测到一个异常值。从数据集中删除该异常值,并且迭代测试直到没有检测到异常值。但是,多次迭代会改变检测概率,并且测试不应该用于六个或更少的样本大小(n>6),因为它经常将大多数点标记为异常值。
Grubbs测试是根据假设定义的:
:数据集中没有异常值
:数据集中只有一个异常值
公式
Grubbs检验统计量是样本标准差的单位与样本均值的最大绝对偏差。
这是测试的双边版本。
Grubbs测试也可以定义为单侧测试。
要测试最小值是否为异常值
公式:
要测试最大值是否为异常值
公式:
表示最小值。
表示最大值。
对于双边测试,没有异常值的假设在显著级别a级被拒绝
表示的上临界值的的t分布与N - 2 自由度和 显着性水平a/(2N)。对于单侧检验,用a/N代替a/(2N)。
t分布可用于构建真实均值的置信区间。
缺点
格拉布斯和和狄克逊法均给出了严格的结果,但存在狄克逊法同样的缺陷。
优化
朱宏等人采用数据值的中位数取代平均值,改进得到了更为稳健的处理方法,有效消除了同侧异常值的屏蔽效应。
国际上常推荐采用格拉布斯准则法。
参考:https://en.wikipedia.org/wiki/Grubbs%27_test_for_outliers
最新文章
- jQuery.noConflict()
- Redis适用于高并发的递增、递减功能
- android SDK安装容易出错的原因
- if条件语句练习题
- MVC4 使用 ckfinder+ckeditor编辑器
- Ajax学习(1)-简单ajax案例
- Oracle函数面试题
- Android框架结构图
- gdb调试带参数程序(转:笑笑小白,cnblog http://www.cnblogs.com/rosesmall/archive/2012/04/10/2440514.html)
- Spring MVC Controller 单元测试
- TCanvas.CopyRect方法中参数CopyMode的意义
- 转:loadrunner经典面试题
- 在DFS和BFS中一般情况可以不用vis[][]数组标记
- bootstrap实例 之 响应式表格-----2017-05-15
- 预防黑客入侵 防黑必学的cmd命令vs网络安全
- Elasticsearch学习笔记(一)cat API
- [转载]oracle位图索引
- A Tool To Plot Mathematical Function
- 左连接sql
- Maven的POM文件parent节点不可以使用properties里面的变量