1. 首页
  2. 数据分析

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。

—————————————–作者说明——————————————————

CDA level 2 4天笔记。

重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。

有讲义的笔记都记录在讲义上。复习参考讲义。

2015/9/20

上一节笔记中讲述了软件的安装,这一节主要讲述数据前处理

1. Attribute Selection

数据整合;

数据过滤:

建立区隔化模型(SAS FILTER)不同客群,用不同的变量进行建模。如高收入人群的年龄比较不重要。

难点在于如何知道哪个字段可以区隔。

2. DATA CLESNSING 数据清洗:噪声消除。

针对类别数据,找错误值

purpose x->undef或者‘$null$’

针对数值数据,找离群值

平均值法min=avg-3std max=ave+3std老师的例子中不适用,因为数量小,outlier影响均值和标准差较大。

四分位数法 Q1+1.5IQR;

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

离群值3.0(3个标准差)极端值5.0(5个标准差)

1.5 IQR 3IQR

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

找到outlier可以: 视为空值(不推荐,可能在填补时成为错误值);试用ceiling和floor发;函数矫正法(取log,不推荐)

使用SAS replacement可以处理错误值+outliers

空值处理-遗缺值的填补:

有的模型不能够有遗缺值。空值处理一定最后,因为前期处理可能会造成空值;

空值要删除的情况:目标字段没有值则删除;字段缺失大于一定比例字段删除:EM规定50%。也可以将整个字段变为INDICATOR VARIABLE。有值为1,无为0。反正这个字段也不可以正常使用,所以转变为指示变两个确有可能有预测意义。

人工填补法

自动添补法:填入未知-不用因为可能解读不易,除非确定;填众数,比较容易猜中,不是很客观;分群求众数-比如发现某一字段跟其他字段有关联,则根据其他字段分组,求每组的众数;最好的做法用分类法,求出最好的值填入-以有空值的字段为TARGET做模型。

—R:根据个人经验,先看业务,知道空值和错误值得由来最佳。

SPSS

先接一个type从新读值。再使用audit。直接运行,选择quality,看哪些需要处理,选择要处理的内容和处理方法。填补方法选specify

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

C&RT 决策树的方法

选好后generate supernode

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

点入砖石黄金节点查看。

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

导出table查看。

数值型填补:分群平均值;数字预测的建模问题。

EM

impute选择tree tree

可以预览,预览时原来字段会保留,自行reject,不用担心

3.字段扩充 enrichment

临床路径

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

直接接C5.0

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

5层决策树

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

看正确率

再试一下plot 可以看2个

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

斜线关系,可以有衍生变量—比例-derive NA/K,则删除K,NA。变量之间相关性强,则会影响模型。

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

效果不错,发现大于某个值,都是用drugY

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

用C5.0决策树,仅需要3层决策树。

【插】—————-学生案例:银行5年->teredata

4.CODING

数据转化

->数据正规化

DATA NOR: 极值正规化 V’ = (V-MIN)/(MAX-MIN)

ZSCORE v’=(v-avgv)/std

->算数据一般化 generalization

概念阶层向上提升

数据精简的方法 EM Replacement

案例 germen贷款目的太多,要合并,用distribution来看purpose里哪些可以合并。A42/A44逾期概率非常相近。一个家电、一个家具,可以合并。

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

EM. REPLACEMENT -> REPLACEMENT VALUE 与处理错误值的方法一模一样

Q&A EM不能画图,可以用EXCEL链接数据库画图,数据不用down下来。

读入数据FILE IMPORT drug->variables 设定->建模:选择Tree【2个节点】

看result

这种decision Tree 综合四种不同的决策树。而SPSS中有4种。

衍生性变两个:MODIFY-TRANSFORM VARIABLE-左侧设置FORMULAR-左上角CREATE,产生一个衍生变量再接决策树,在run之前还要删除NA K

TREE的大小用叶节点看来,共6个叶节点

ACESS -> Model comparison

Q&A1: RANDOM GUESS AND RANDOM GUESS LINE : RANDOM GUESS ABEY RATIO AND THE 45 DEGREE LINE IS A REFLECTION OF RANDOM GUESS

Q&A2: HOW TO PLOT : imported data ->TRAIN-> EXPLORE -> PLOT – > SCATTER

HISTOGRAM 不可以跟目标发生关系,BAR可以,但是如果用年龄,则一个年龄一个BAR,不好。

->数据形态转化

类别转换成数值型

数值型转换成类别型– 银行评分卡常需要对年龄切割分箱。数值型属性常常是模型不稳定(转用测试时,准确度大幅下降)的来源之一。可以尝试用皮尔森系数看测试与训练的关系。(Q&A: )

怎么做数值型属性离散化。现在银行评分卡用人工看,专家看。BINNING METHOD自动切。EQUAL-WIDTH-INTERVAL:会受到outlier影响很大;EQUAL-FREQUENCY-INTERVAL

要试,如何判断好不好?逾期率。可以用画图

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

我记得有一个专门做这个东西的node

一个易于理解和解释的分析结果:对target有明显相关性。

等宽等频都不好。要怎么做?先切小,再合并。逢低切。

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

效果不好,集成别人算法。不如EM好。

EM:离散化 transform variable -> Variable ->IMP_REP_duration

离散后验证 transform variable –> exported data

EM有评分卡的包。1000多万台币

【插】—————-AAEM 考试。

。OPTIONS -> PREFERENCE -> FETCH SIZE:MAX explorer时旁边的统计结果是全量

变数重要性statexplore卡方统计量

左偏右偏

kurtoses峰度

TARGET是0,破产1 STATEXPLORE有分跟目标的关系

->数据精简DATA REDUCTION

RECORD REDUCTION

抽样方法

VALUE REDUCTION

ATTRIBUTE REDUCTION

->数据集的切割

训练测试目标分布要一样

SPSS 示例

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

设定random seed则抽出来的每次都一样。数字跟可能性的余数那一组

CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

这样可以绝对选择800比。

但是未必可以保证目标变量的比例与原样一致

这样可以保证3:7

将training test都输入SAV格式,可以保留设定的字段属性。

新建stream 读入,接

将2个stream存为一个project

EM

数据切割data partition: training 60% validation 20% (修正模型,防止过度拟合) test:20%

EM 预设分层随机抽样,不用去设定抽样。如果没有目标字段,则随机

下一节:CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

———————–小节分割线———————-

在建模分析师中,数据挖掘(Data Mining)技术无疑是他们最强有力的核心竞争力。数据挖掘强调与现有信息系统的整合,以提供决策者做决策时所需的情报,或转化成经营智慧,以作为调整营运策略方针的辅助工具。以顾客关系管理(CRM)为例,数据挖掘是整个顾客关系管理的核心。其不但可以准确的定位目标市场,进行精准营销,还可以帮助业务人员了解客户深层需求,针对大量客户进行客制化,也就是所谓的一对一营销。本课程的目的就是要针对数据挖掘整套流程,根据CDA Level Ⅱ大纲标准,以金融、电信、电商和零售业为案例背景,结合SAS Enterprise Miner和SPSS Moderler深入讲授数据挖掘的主要算法。并将SAS语言和SQL进行有效的结合,讲授如何在实际工作中搭建数据挖掘环境,制定分类数据挖掘的标准流程,让学员胜任全方位的数据挖掘运用场景。

PPV课原创文章,转载请注明作者和原文链接!

原文始发于微信公众号(PPV课数据科学社区):CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/19090

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息