点击上方免费订阅(学习) 前面讲到了怎么导入数据,获取数据,按照数据挖掘的流程,在我们导入数据之后接下来的工作便是对数据进行初步的探索,探索的工作主要包括两大块,第一是数据质量分析,第二是数据特征分析.数据质量分析就是看看数据有没有缺失值,有没有异常值,数据是否具有一致性等,而数据特征分析则包括数据的分布,数据进行对比,数据简单的统计,以及数据周期性和相关性的检查.这部分工作对于我们后面数据建模非常重要,也是我们发现问题,解决问题的重要一步,那么接下来,会用两节来讲讲数据的初步探索,当然是用R语言实现的,这节主要讲数据质量分析.
1.探索数据的构成.
-
整体查看数据集的情况:这里以R自带数据集mtcars为例.
这仅是查看数据的结构信息,当我们想整体看看数据的情况时,R也可以提供可视化的形式,以表格呈现给我们,当然当数据量非常大时,我们也可以选择查看部分行的数据.代码如下:
记住以上的几个函数,我们就可以初步的观察数据的整体结构了,我们便可以明了,拿到的是一份怎样的数据,大致的样子是怎么样的了.接下来我们便需要仔细的观察每一列,也就是每一个字段的情况.
-
简单的选择性查看数据部分情况
这部分内容主要包括怎么使用下标的方式简单的查看符合条件的数据集,部分代码及功能如图;
以上几个函数都是做简单的查询,对于我们前期探索以及后期建模也非常重要,在建模时可能需要用到数据集中的某一变量,或者某一符合条件的部分数据,使用上述的函数就可以.
-
在我们编程时经常会报错,有一部分原因就是不清楚数据的类型,在前面我们讲到了数据的分类,现在我们举出几个查看数据类型的函数:
至此数据的大致情况构成我们便可以清楚的知道了.
2.缺失值,异常值查询
其中complete.cases返回的是每一行的情况,而is.na则返回每一个元素的情况.
summary则返回了每个变量的最小值,下分位数,中位数,均值,上分位数,最大值.
3.一致性分析
对于一致性分析,则需要分析者 的经验和专业知识了,即所谓数据明显不符合逻辑和要求的,性别变量填成了数值,身高变量填成了字母.等等
未完待续,
PPV原创文章,严禁转载. (文:@白加黑治感冒)
PPV课转载的每一篇文章均来源于公开网络,仅供学习使用,不会用于任何商业用途,文章版权归原作者所有,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:149104196@qq.com。转载PPV课网站文章请注明原文章作者,否则产生的任何版权纠纷与PPV课无关。
PPV课-国内领先的大数据学习社区和职业培训平台
1、回复“数据分析师”查看数据分析师系列文章
2、回复“案例”查看大数据案例系列文章
3、回复“征信”查看相关征信的系列文章
4、回复“可视化”查看可视化专题系列文章
5、回复“SPPS”查看SPSS系列文章
6、回复“答案”查看hadoop面试题题目及答案
7、回复“爱情”查看大数据与爱情的故事
8、回复“笑话”查看大数据系列笑话
9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载
原文始发于微信公众号(PPV课数据科学社区):【连载】R语言18讲(四)
原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/15162