1. 首页
  2. 数据分析

【学习】R语言18讲(五)

点击上方免费订阅学习) 【学习】R语言18讲(五)上篇讲到了数据挖掘的质量分析,主要是对数据缺失情况,准确情况,以及数据集的结构进行探索,接下来,我们就要对数据的特征进行分析了,所谓数据的特征分析就是指数据的分布情况,数据各个变量之间的对比,以及数据的简单统计和周期性检查,包括相关性等等.这些还主要是对数据进行浅层的分析和探索,却往往要花费很大的精力和时间去做这些事,那么对于数据的特征分析需要用到的函数,在这里也进行讲述.

1.分布情况:

对于定量数据,我们查看其是否对称,有没有特别大的或特别小的可疑值,以及频率分布.而对于定性的数据,我们查看其比例,像饼图,条形图等等.

【学习】R语言18讲(五)

【学习】R语言18讲(五)【学习】R语言18讲(五)【学习】R语言18讲(五)2.对比

对比就是看某种类型的数据占的比重,或变量之间的比例关系,或同一时间的对比,或者变量的密度强度,以及速度等

3.统计量

就是我们常见的均值,中位数,众数,极差,标差,变异系数,四分位距,偏度和峰度.【学习】R语言18讲(五)

4.周期性

主要是对时间序列进行分析

5.贡献度

即累积效应达80%的前几个因素.【学习】R语言18讲(五)

【学习】R语言18讲(五)

6.相关性

主要讲散点图,和相关系数,包括pearson相关系数,spearman秩相关系数,也称等级相关系数【学习】R语言18讲(五)

【学习】R语言18讲(五)【学习】R语言18讲(五)

当我们进行完数据的初步探索之后,我们对于数据的分布,以及一些相关关系都很清楚了,接下来便是我们的数据处理,数据处理就是为了我们建模的,为了让数据适合模型,我们需要对数据进行一系列的处理,这其中主要有四大块,分别是数据清洗,数据集成,数据变换,数据规约.而这部分工作量是整个数据挖掘中最繁重的,需要我们非常仔细和耐心,其中涉及的函数也是非常之多这里,而且函数都比较复杂,这里尽量有条理的举出一些.方便我们记忆.

1.衍生新字段

在我们处理数据的时候,有时需要根据目前的字段衍生新字段,来帮助我们分析,这里有两种方法

【学习】R语言18讲(五)

2.重命名

【学习】R语言18讲(五)【学习】R语言18讲(五)

3.缺失值处理【学习】R语言18讲(五)

4.排序【学习】R语言18讲(五)

5.合并【学习】R语言18讲(五)

【学习】R语言18讲(五)6.分组统计

【学习】R语言18讲(五)

这节涉及到一些画图的函数,只是简单的列出,对于其具体使用,将在下面的章节详细的讲解,这节的函数,还有其他用法,我们可以按照前面讲到的使用帮助文档去看它的使用方法和使用例子.


未完待续,

PPV原创文章,严禁转载. (文:@白加黑治感冒)

PPV课转载的每一篇文章均来源于公开网络,仅供学习使用,不会用于任何商业用途,文章版权归原作者所有,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:149104196@qq.com。转载PPV课网站文章请注明原文章作者,否则产生的任何版权纠纷与PPV课无关。

PPV课-国内领先的大数据学习社区和职业培训平台

【学习】R语言18讲(五)

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID:ppvke123(长按可复制)

本公众号专注大数据和数据科学领域,分享领域知识和相关技术文章,探索大数据商业价值,培养和挖掘大数据专业人才,欢迎大家关注!

原文始发于微信公众号(PPV课数据科学社区):【学习】R语言18讲(五)

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/15091

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息