1. 首页
  2. 数据分析

【数据挖掘】rattle:数据挖掘的界面化操作

点击上方免费订阅学习)

R语言是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里的统计计算可以是数据分析、建模或是数据挖掘等,通过无数大牛提供的软件包,可以帮我们轻松实现算法的实施。

一些读者觉得R语言零碎的东西太多了,无法记住那么多函数和功能,于是就问R语言有没有一种类似于SAS之EM或SPSS之Modeler的界面化操作。很幸运,Graham等人特地为“偷懒”的分析师写了rattle包,通过该包就可以实现界面化操作的数据分析、数据挖掘流程。下面就跟大家详细介绍一些这款免费的工具:

【数据挖掘】rattle:数据挖掘的界面化操作上 图红色区域就是数据分析与挖掘的流程,包括:数据源(Data)–>数据探索与检验(Explore、Test)–>数据变换 (Transform)–>数据挖掘(Cluster、Associate、Model)–>模型评估(Evaluate)。

首先,你会经历“一劳永逸”的过程:安装rattle包

不 瞒您说,我首次在自己的64位Win7系统中安装rattle包时花费了不少功夫。当你install.packages(‘rattle’)时,觉得非 常轻松就下载好了,但是进入library(rattle)并输入rattle()时它会报告各种.dll文件不存在。如果您决定要试试,就下载缺失的 dll文件到您的电脑里。

其次,我们来介绍一下rattle数据挖掘操作界面都有哪些东西

1)数据源(Data)

【数据挖掘】rattle:数据挖掘的界面化操作一 切数据分析与挖掘都起源于数据,故第一步就是往rattle中导入数据源,数据源可以是外部数据源,如txt文件、csv文件、Excel文件等;也可以 是数据库数据,通过ODBC连接诸如SQL Server、MySQL等数据库;也可以是当前R空间下的数据集;也可以是外部R数据集文件、还可以是R包自带的数据集。

2)数据探索与检验(Explore、Test)

【数据挖掘】rattle:数据挖掘的界面化操作

【数据挖掘】rattle:数据挖掘的界面化操作有了数据后,需要进行数据探索,如汇总(Summary)、分布(Distributions)、相关性分析(Correlation)、主成分分析(Principal Components)、t检验、F检验、K-S正态性检验、Wilcoxon检验等

3)数据变换(Transform)

【数据挖掘】rattle:数据挖掘的界面化操作当数据存在缺失或需要从新编码、标准化时,就需要这里的数据变换了

4)数据挖掘(Cluster、Associate、Model)

【数据挖掘】rattle:数据挖掘的界面化操作

【数据挖掘】rattle:数据挖掘的界面化操作

【数据挖掘】rattle:数据挖掘的界面化操作

当数据清洗干净或对数据有了基本了解后,就要进入数据挖掘过程,rattle工具提供了常用的数据挖掘算法,如:K-means聚类、层次聚类、关联规则、决策树、随机森林、支持向量机、线性回归、Logistic回归、神经网络等

5)模型评估(Evaluate)

【数据挖掘】rattle:数据挖掘的界面化操作当模型选定,并进入模型运算后,需要对模型进行评估,选择比较理想的模型用着后期数据的部署。有关模型评估,rattle提供了混淆矩阵、风险矩阵、成本曲线、Lift曲线、ROC曲线等方法。

最后,我们就用这个rattle做一个实战,数据集就使用C50包中的churnTrain,该数据集是德国某电信公司客户是否流失的数据集。

1)读取数据集

选择好数据集后,点击“执行”,默认数据集将分为三个子集,即训练集占70%、训练集和检验集各占15%,最后将指定哪些变量为解释变量和被解释变量,如有不需要的变量,则选为“Ignore”

【数据挖掘】rattle:数据挖掘的界面化操作

2)数据探索

选择Summary单选、并选择Summary、Describe、Basic、Kurtosis等复选框后,看看都有哪些返回结果:

Summary结果

【数据挖掘】rattle:数据挖掘的界面化操作Discribe结果

【数据挖掘】rattle:数据挖掘的界面化操作Basic基本统计量结果

【数据挖掘】rattle:数据挖掘的界面化操作还有很多数据探索的内容,这里就不一一说明了,希望读者能自行执行,并了解数据的大致情况。

3)数据挖掘

判断客户是否流失,是一种分类问题,下面综合考虑使用Logistic回归、决策树、随机森林三种分类算法

简单看一下这三种算法的结果

Logistic回归的结果:

【数据挖掘】rattle:数据挖掘的界面化操作【数据挖掘】rattle:数据挖掘的界面化操作决策树的结果:

【数据挖掘】rattle:数据挖掘的界面化操作【数据挖掘】rattle:数据挖掘的界面化操作随机森林的结果:

【数据挖掘】rattle:数据挖掘的界面化操作

【数据挖掘】rattle:数据挖掘的界面化操作

4)模型评估

这里我们使用混淆矩阵和ROC曲线两种评估模型的方法,具体结果见下图的展示:

【数据挖掘】rattle:数据挖掘的界面化操作

【数据挖掘】rattle:数据挖掘的界面化操作【数据挖掘】rattle:数据挖掘的界面化操作【数据挖掘】rattle:数据挖掘的界面化操作结果显示,三个模型的优劣顺序为:随机森林、决策树和Logistic回归

本文只是带大家进入rattle这个界面化操作的数据分析和挖掘工具,更多探索和玩法还需要大家进一步研究。欢迎各位交流与探讨有关数据分析的问题。

刘顺祥,数据分析师,热爱数据分析与挖掘工作,擅长使用R语言,目前自学Python语言。

来源:数据人网

原文链接:http://shujuren.org/index.php/Article/update/aid/167

【数据挖掘】rattle:数据挖掘的界面化操作

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID:ppvke123(长按可复制)

本公众号专注大数据和数据科学领域,分享领域知识和相关技术文章,探索大数据商业价值,培养和挖掘大数据专业人才,欢迎大家关注!

原文始发于微信公众号(PPV课数据科学社区):【数据挖掘】rattle:数据挖掘的界面化操作

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/16400

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息