1. 首页
  2. 数据分析

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

点击上方免费订阅(学习)

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDALEVEL II 数据建模师培训的上课内容整理而成的。

———————————–作者说明—————————————

CDA level 24天笔记。

重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。

有讲义的笔记都记录在讲义上。复习参考讲义。

2015/9/20

————————————老师简介—————————————

李御玺

国立台湾大学咨询工程博士

铭传大学咨询工程学系教授(2000~)

CDA协会高级会员=数据分析专家

铭传大学大数据研究中心主任

中华资料采矿协会理事

中国人民大学数据挖掘中心顾问

厦门大学数据挖掘中心顾问

SPSS、SAS、微软(Reporting service power view power map)

专长:数据挖掘、文本挖掘

MY DATA MINING IN TAIWAN

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

台新银行案例

2004年营销案:提案:139件;成案:103件;效益:10亿

中华航空公司案例

常旅客分群模型建置;高仓促销模型:怎么能让高舱等多人坐;华航精致旅游促销模型

中国东方航空公司

会员贡献度分析;会员乘机率分析;会员流失及挽留分析

特立和乐HOLA公司

客户贡献度分析;型录效益分析;客户流失及挽留

中国工商局

企业注销吊销模型;PEVC投资价值评估模型;12315消费者投诉与维权预防的模型

-台湾有联合征信中心,受到启发。为企业建立信用等级。

泥石流预测结合GIS系统

————————-以下为正文—————————–

LEVEL II 数据挖掘/大数据-软件安装

.SPSS

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

建议不要更改安装路径。建议使用英文版。分配内存会影响最大读入数据量。

win8找不到延长使用的目录。–不但要显示文,还是设置

.SAS

更改EM语言:

建立一个专门存放SAS PROJECT的目录。

尝试修改时间;尝试以管理员身份运行

.SPSS基本使用

.数据集:银行评分卡

  1. 分析数据 分析字段:哪些有用,怎么用,为什么

  2. 读入

  3. 分类(type:IT人员给的数据很可能有错,十之八九,要特别确认)数值型有的需要改为nominal/flag

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

4.描述性统计画图(数值型用直方图/NOMINAL用distribution分布图)看

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

说明这个字段OK,有趋势性

.EM基本使用

新建PROJECT

新建LIBRARY

查看lib

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

数据导入-数据源

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

基本跟modeler的判断依据类似。

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

类别型超过8个就不好,所以就自己去想办法group

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

如果想导入CSV,用EG去转。

新建流程图

使用DMDB数据探索可以看到SPSS STAT才能看到的东西看DMDB result

skewness》0 右偏图在左边

Class variable

GRAPH EXPLORE

StatExplorechi-square Plot 卡方检定 Cramer’s V

worth 类别卡方数值方差 P log取-则越大越好,排序

使用帮助文档:

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

.MINING MODELS分类

.老师的分类法

  1. 描述性Descriptive data minding(unsupervised learning)

Association Rules关联规则

Cluster Analysis 聚类分析

Sequential Patterns序列型样

  1. 预测性Predictive data mining (supervised learning)

2.1 CLASSIFICATION 分类 ->预测数据所属的类别

Bayes Net 贝叶斯网络

Decision Tree 决策树

Neural Network 神经网络

Logistic Regression 逻辑回归

2.2 PREDICTION 预测

Decision Tree 决策树

Neural Network 神经网络

Linear Regression 线性回归

Time Series时间序列(听说LEVEL I 会讲)

.SAS的分类法

  1. PATTERN DISCOVERY

1.1 CLUSTER ANALYSISI 聚类分析

1.2 Market BASKET ANALYSIS:

Association Rules关联规则

Sequential Patterns序列型样

  1. Predictive Modeling

  2. 1 Decisions 决策:Classification

  3. 2 Rankings 排序:Credit Scoring;Decision

  4. 3 Estimates估计:Prediction

.建模目的指标

绩效的增益

Accuracy

Gain Chart

Lift Chart :Gain Chart 中计算Lift=比随机乱猜命中增加的倍数

坐标轴 DEPTH VS LIFT

Profit Chart: 转化成Profit给领导展示<- 成本矩阵

.介绍2个网站

www.kdnuggets.com

有别人发布的软件算法;

www.kaggle.com

比赛:老师曾参与Acquire valued shoppers challenge 有30万客户,3亿5千万数据。用JAVA写处理数据的程序,然后30万的数据用modeler处理就很容易。如果仅用modeler则每次处理输入读入时间25分钟。老师用的是本地电脑,不是服务器。服务器肯定会快一点。

以面积为评判标准。(GAIN CHART)

华硕库存预测,以绝对误差为评判依据。

有些公司会去找题目,看看是不是试用自己的公司->培养找题目的能力也很重要。

介绍几个案例的数据集(缺省)

下一节:CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

————————————小节分割线————————————

在建模分析师中,数据挖掘(Data Mining)技术无疑是他们最强有力的核心竞争力。数据挖掘强调与现有信息系统的整合,以提供决策者做决策时所需的情报,或转化成经营智慧,以作为调整营运策略方针的辅助工具。以顾客关系管理(CRM)为例,数据挖掘是整个顾客关系管理的核心。其不但可以准确的定位目标市场,进行精准营销,还可以帮助业务人员了解客户深层需求,针对大量客户进行客制化,也就是所谓的一对一营销。本课程的目的就是要针对数据挖掘整套流程,根据CDA Level Ⅱ大纲标准,以金融、电信、电商和零售业为案例背景,结合SAS Enterprise Miner和SPSS Moderler深入讲授数据挖掘的主要算法。并将SAS语言和SQL进行有效的结合,讲授如何在实际工作中搭建数据挖掘环境,制定分类数据挖掘的标准流程,让学员胜任全方位的数据挖掘运用场景。

PPV课原创文章,转载请注明作者和原文链接!

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

PPV课-国内领先的大数据学习社区和职业培训平台,欢迎关注!

数据驱动未来,我们开启智慧!

原文始发于微信公众号(PPV课数据科学社区):【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/14618

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息