1. 首页
  2. 数据挖掘

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

点击上方
“蓝色字”
可关注我们!

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

作者:王陆勤

事实是否可靠,我们该问谁?我们该如何分析和判断?

平均数在寻找数据典型值方面是一个好手段,但是平均数不能说明一切。平均数能够让你知道数据的中心所在,但若要给数据下结论,尽有均值、中位数、众数还无法提供充足的信息。分析数据的分散性和变异性,可以更好地认识和理解数据。通过各种距和差来度量分散性和变异性。

使用全距区分数据集

平均数往往给出部分信息,它让我们能够确定一批数据的中心,却无法知道数据的变动情况。

通过计算全距(也叫极差),轻易获知数据的分散情况。全距指出数据的扩展范围,计算方法是用数据集中的最大数减去数据集中的最小数。最小值称为下界,最大值称为上界。

全距是量度数据分散程度的简单又方便的方法。

全距仅仅描述数据的宽度,并没有描述数据在上、下界之间的分布形态。

四分位数

把整批数据一分为四作用的几个数值就是所谓的四分位数。

最小的四分位数(Q1)称为下四分位数或者第一四分位数,最大的四分位数(Q3)称为上四分位数或者第三四分位数。中间的四分位数(Q2)就是中位数,因为它将数据一分为二。每两个四分位数之间的距离被称为四分位距(IQR)。

四分位距的优点是:与全距相比,较少受到异常值的影响。

四分位矩有效地忽略异常值(数据中的极大值或者极小值)。

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

求下四分位数位置

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

求上四分位数位置

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

除了全距和四分位距,还有别的距可供我们使用。

除了四分位数之外,还可以十分位数、百分位数等。

求百分位数的方法

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

用箱线图绘制各种“距”

箱线图,一种专门用来显示各种各样的距。

箱线图显示数据的全距、四分位距以及中位数。

箱线图可以对不同数据集进行比较。

篮球球员得分箱线图

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

变异性比分散性更具体

使用方差计算变异性。

方差,各个数值与均值的距离的平方数的平均值。

统计学里面,方差的通用形式。

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

或者

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

标准差

标准差,方差的平方根。

标准差是描述典型值与均值距离的一种方法,标准差越小,数值离均值越近。

标准分

标准分通常以字母z表示,为了求出特定数值x的标准分,计算公式如下。

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

标准分把每一个数据集转化为更为通用的分布形态,从而实现不同数据集的比较。

标准分是对不同数据集中的数值进行比较的一种方法,这些数据集的均值和标准差互不相同。

重要统计量

全距(极差)

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

四分位数

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

四分位距

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

方差

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

总结:数据的分散性和变异性度量法则,全距、四分位距、百分位距、方差、标准差和标准分。距的可视化方式,箱线图。

思考题

1 如何计算百分位距?

2 方差和标准差与全距有什么区别?

3 动一动笔,做计算。

【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

王陆勤,深圳大学智能信息处理研究生,广东科技学院计算机系讲师,PPV课讲师团成员。热爱数据科学,专注机器学习,有着丰富的使用R语言做数据处理和分析的经验。PPV课在线课程:《R语言入门班

【陆勤笔记】《深入浅出统计学》1信息图形化:第一印象

【陆勤笔记】《深入浅出统计学》2集中趋势的度量:中庸之道

PPV课原创文章,转载请注明出处!

点击下方“阅读原文”查看更多
↓↓↓

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复每日一课查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文始发于微信公众号(PPV课数据科学社区):【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/21461

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息