1. 首页
  2. 数据挖掘

【陆勤笔记】《深入浅出统计学》1信息图形化:第一印象

点击上方
“蓝色字”
可关注我们!

【陆勤笔记】《深入浅出统计学》1信息图形化:第一印象

在为手头数据无法给出事情真相和发愁吗?作为一名数据工作者,总会有这种问题浮在心头。手头的数据,大部分时候是原始数据集,准确地说,应该是基于目的驱动所采集过来的原始数据集,面对这些原始数据集,如何揭示事情的真相,这就是我们需要思考和行动的事情。

统计能化繁为简,帮助您让一堆堆令人困惑的数据发挥作用。换而言之,掌握统计知识和思维,可以帮助我们理解好数据,从而发觉数据的价值,看到数据所要表现的真相。

当你发现数据的真相之后,接下来就需要借助可视化的方法来表现,使之公之于众。对于数据的真相,如何进行可视化,选择可视化哪种方式,需要我们思考和践行,并且还要考虑受众的感觉和希望给予受众什么。【研究用户非常重要,知彼知己百战不殆】

统计无处不在

统计无处不在,统计无处不有,这是一个统计的世界。擦亮我们的眼睛,带上统计的思维认识和改造这个世界。

网页浏览、运动竞技、游戏排名、消费指数、人均工资等等,这些都与统计有关联。但凡人们目光所及,处处皆有统计量。

何谓“统计”?

统计是这样一种思想,他们通过某种有意义的方式对原始事实和数字进行提炼,使得仅仅通过观察原始数据无法立即水落石出的一些理念得以昭示。简而言之,统计让我们认识数据背后的有价值的东西。

统计的研究包括:统计数据的来源,计算方法及有效使用方法并得出结论。

统计数据来源,也就是清楚数据从哪里来,切记:好数据有好结果,坏数据有坏结果。

计算方法,也就是要理解统计的计算方法和使用范畴,什么问题需要用什么样的计算方法,这是要解决的。

使用方法,知道统计计算方法是前提,接下来要知道更具问题域进行方法的使用。

得出结论,利用方法进行处理后,要能够对结果进行解读和表示。

为何学习统计学?

这是一个统计的世界,学习统计学有利于人们更好地认识和改造世界。

借助统计方法可以了解到事情的真相和数据的本质。

一旦得到可靠的统计量,就能做出客观的决策,比如精确地预测或者以最有效的方式传达自己想传达的思想和观点。

统计有这么多好处,但是,任何事物都具有两面性。统计既能够揭示真相,也能够误导真相。因而,我们需要辨别什么是真的,什么是假的,后者说什么是真实,什么是谎言?

好好地掌握统计学,正确地利用统计学,我们将会拥有更好的手段去判断统计量是否正确,从而避免遭人愚弄或是欺骗。

软件无法代替你的思考

制图软件可以为你节省大量的时间,生成有效的图表,但你仍然需要了解事情的来龙去脉。常用的制图软件包括ExcelR语言、Python语言等。

对于数据,能否选择合适的图表有效展示和传达信息,这需要好好思考。

软件能够将数据转换成图表,至于图表是否正确,需要你来判断和保证。

饼图

饼图是把数据划分为有着明显区别的几个组或者几个类。饼图为圆形,被分割为几个扇形块,每一块代表一个组(类)。扇形块的大小表示这类数据占总体的比例。扇形块越大,该组(类)的相对频繁程度越大,一个特定组中的对象数目称为频数。

饼图体现比例,并且对于有着明显区别的基本比例进行比较时,饼图有用。

条形图

对于各个类的大小大致相同的情况,条形图是理想的图形,你能更精确地指出那个类的频数最高,也更容易发现细小的差别。

条形图可以是垂直的,也可以是水平。

条形图中的每一个长方形代表一个特定的类,长方形的长度代表某种数值。长方形越长,数值越大。所以长方形的宽度相等。

堆砌条形图和分段条形图,当你想比较频数,可以使用堆砌条形图;当你要同时体现频数和百分数时,可以使用分段条形图。

直方图

直方图与条形图外观相似,两个重要区别,一,每个长方形的面积与频数成比例;二,图上的长方形之间没有间隔。

直方图是一种专门用于体现分组数据的图形,它看起来像条形图,但每条长方形的高度是频数密度,而不是频数。频数密度指的是分组数据中频数的密集程度。

累计频数图

累计频数图,表示累计频数的一种图表。累计频数,即到某个特定数值为止的总频数,即频数的累计总和。

折线图

折线图能很好地体现数据的趋势,你将每一批数据画成点,然后将这些点连接起来。可以方便地在同一张图上显示多批数据。

折线图常用于显示随时间变化的数值。

折线图用于展示数值型数据,不应用于展示类别数据。

重要的统计量

频数:表示在一个特定组,或者说在一个特定的区间内的统计对象的数目,类似于数数。

类别和数字:类别数据,也叫定性数据,数据被划分为各种类别,用以描述类的性质或特征。数值型数据,也叫定量数据,它所涉及的是数字,数值型数据中数值具有数字的意义,但还涉及计量或计数。

对于各种数据结果,如何进行数据可视化?

一方面取决于我们数据结果的特性,是类别数据结果,还是数值型结果;

另一方面取决于我们希望向用户传达什么信息,记住:向用户最直观地传达最重要和价值的信息。

数据可视化的画图,我们可以利用各种软件工具,比方说Excel软件、R语言和Python语言等,因而,熟练地掌握和应用这些软件工具,也是我们认识数据、理解数据和应用数据的必备技能之一。

思考题:

1 数据可视化,怎么理解?

2 常用的数据可视化软件工具有哪些?你会使用那些?

3 常用的数据可视化表示方式有哪些,各自有什么差异?请举例说明。

PPV课原创文章,转自请注明出处!

点击下方“阅读原文”查看更多
↓↓↓

原文始发于微信公众号(PPV课数据科学社区):【陆勤笔记】《深入浅出统计学》1信息图形化:第一印象

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/21596

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息