PPV课数据科学社区CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

写在前面：此笔记是PPV课学员张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。

—————————————–作者说明——————————————————

CDA level 2 前4天笔记。

重点在操作和老师口述的无关内容。由于开始没安装成功EM，所以没有截图。

有讲义的笔记都记录在讲义上。复习参考讲义。

2015/9/20

上一节笔记中讲述了软件的安装，这一节主要讲述数据前处理

1. Attribute Selection

数据整合；

数据过滤：

建立区隔化模型(SAS FILTER)不同客群，用不同的变量进行建模。如高收入人群的年龄比较不重要。

难点在于如何知道哪个字段可以区隔。

2. DATA CLESNSING 数据清洗：噪声消除。

针对类别数据，找错误值

purpose x->undef或者‘$null$’

针对数值数据，找离群值

平均值法min=avg-3std max=ave+3std老师的例子中不适用，因为数量小，outlier影响均值和标准差较大。

四分位数法 Q1+1.5IQR;

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

离群值3.0（3个标准差）极端值5.0（5个标准差）

1.5 IQR 3IQR

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

找到outlier可以: 视为空值（不推荐，可能在填补时成为错误值）；试用ceiling和floor发；函数矫正法(取log，不推荐)

使用SAS replacement可以处理错误值+outliers

空值处理-遗缺值的填补：

有的模型不能够有遗缺值。空值处理一定最后，因为前期处理可能会造成空值；

空值要删除的情况：目标字段没有值则删除；字段缺失大于一定比例字段删除：EM规定50%。也可以将整个字段变为INDICATOR VARIABLE。有值为1，无为0。反正这个字段也不可以正常使用，所以转变为指示变两个确有可能有预测意义。

人工填补法

自动添补法：填入未知-不用因为可能解读不易，除非确定；填众数，比较容易猜中，不是很客观；分群求众数-比如发现某一字段跟其他字段有关联，则根据其他字段分组，求每组的众数；最好的做法用分类法，求出最好的值填入-以有空值的字段为TARGET做模型。

—R:根据个人经验，先看业务，知道空值和错误值得由来最佳。

SPSS

先接一个type从新读值。再使用audit。直接运行，选择quality，看哪些需要处理，选择要处理的内容和处理方法。填补方法选specify

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

C&RT 决策树的方法

选好后generate supernode

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

点入砖石黄金节点查看。

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

导出table查看。

数值型填补：分群平均值；数字预测的建模问题。

impute选择tree tree

可以预览，预览时原来字段会保留，自行reject，不用担心

3.字段扩充 enrichment

临床路径

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

直接接C5.0

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

5层决策树

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

看正确率

再试一下plot 可以看2个

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

斜线关系，可以有衍生变量—比例-derive NA/K，则删除K,NA。变量之间相关性强，则会影响模型。

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

效果不错，发现大于某个值，都是用drugY

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

用C5.0决策树，仅需要3层决策树。

【插】—————-学生案例：银行5年->teredata

4.CODING

数据转化

->数据正规化

DATA NOR: 极值正规化 V’ = (V-MIN)/(MAX-MIN)

ZSCORE v’=(v-avgv)/std

->算数据一般化 generalization

概念阶层向上提升

数据精简的方法 EM Replacement

案例 germen贷款目的太多，要合并，用distribution来看purpose里哪些可以合并。A42/A44逾期概率非常相近。一个家电、一个家具，可以合并。

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

EM. REPLACEMENT -> REPLACEMENT VALUE 与处理错误值的方法一模一样

Q&A EM不能画图，可以用EXCEL链接数据库画图，数据不用down下来。

读入数据FILE IMPORT drug->variables 设定->建模：选择Tree【2个节点】

看result

这种decision Tree 综合四种不同的决策树。而SPSS中有4种。

衍生性变两个：MODIFY-TRANSFORM VARIABLE-左侧设置FORMULAR-左上角CREATE,产生一个衍生变量再接决策树，在run之前还要删除NA K

TREE的大小用叶节点看来，共6个叶节点

ACESS -> Model comparison

Q&A1: RANDOM GUESS AND RANDOM GUESS LINE : RANDOM GUESS ABEY RATIO AND THE 45 DEGREE LINE IS A REFLECTION OF RANDOM GUESS

Q&A2: HOW TO PLOT : imported data ->TRAIN-> EXPLORE -> PLOT – > SCATTER

HISTOGRAM 不可以跟目标发生关系，BAR可以，但是如果用年龄，则一个年龄一个BAR，不好。

->数据形态转化

类别转换成数值型

数值型转换成类别型– 银行评分卡常需要对年龄切割分箱。数值型属性常常是模型不稳定（转用测试时，准确度大幅下降）的来源之一。可以尝试用皮尔森系数看测试与训练的关系。(Q&A: )

怎么做数值型属性离散化。现在银行评分卡用人工看，专家看。BINNING METHOD自动切。EQUAL-WIDTH-INTERVAL：会受到outlier影响很大;EQUAL-FREQUENCY-INTERVAL

要试，如何判断好不好？逾期率。可以用画图

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

我记得有一个专门做这个东西的node

一个易于理解和解释的分析结果：对target有明显相关性。

等宽等频都不好。要怎么做？先切小，再合并。逢低切。

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

效果不好，集成别人算法。不如EM好。

EM:离散化 transform variable -> Variable ->IMP_REP_duration

离散后验证 transform variable –> exported data

EM有评分卡的包。1000多万台币

【插】—————-AAEM 考试。

。OPTIONS -> PREFERENCE -> FETCH SIZE:MAX explorer时旁边的统计结果是全量

变数重要性statexplore卡方统计量

左偏右偏

kurtoses峰度

TARGET是0，破产1 STATEXPLORE有分跟目标的关系

->数据精简DATA REDUCTION

RECORD REDUCTION

抽样方法

VALUE REDUCTION

ATTRIBUTE REDUCTION

->数据集的切割

训练测试目标分布要一样

SPSS 示例

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

设定random seed则抽出来的每次都一样。数字跟可能性的余数那一组

CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

这样可以绝对选择800比。

但是未必可以保证目标变量的比例与原样一致

这样可以保证3:7

将training test都输入SAV格式，可以保留设定的字段属性。

新建stream 读入，接

将2个stream存为一个project

EM

数据切割data partition: training 60% validation 20% (修正模型，防止过度拟合) test：20%

EM 预设分层随机抽样，不用去设定抽样。如果没有目标字段，则随机

下一节：CDA LEVEL II 数据建模师培训学习笔记（三）贝叶斯、神经网络等统计分析方法的具体操作

———————–小节分割线———————-

在建模分析师中，数据挖掘(Data Mining)技术无疑是他们最强有力的核心竞争力。数据挖掘强调与现有信息系统的整合，以提供决策者做决策时所需的情报，或转化成经营智慧，以作为调整营运策略方针的辅助工具。以顾客关系管理(CRM)为例，数据挖掘是整个顾客关系管理的核心。其不但可以准确的定位目标市场，进行精准营销，还可以帮助业务人员了解客户深层需求，针对大量客户进行客制化，也就是所谓的一对一营销。本课程的目的就是要针对数据挖掘整套流程，根据CDA Level Ⅱ大纲标准，以金融、电信、电商和零售业为案例背景，结合SAS Enterprise Miner和SPSS Moderler深入讲授数据挖掘的主要算法。并将SAS语言和SQL进行有效的结合，讲授如何在实际工作中搭建数据挖掘环境，制定分类数据挖掘的标准流程，让学员胜任全方位的数据挖掘运用场景。

PPV课原创文章，转载请注明作者和原文链接！

原文始发于微信公众号（PPV课数据科学社区）：CDA LEVEL II 数据建模师培训学习笔记（二）数据前处理

原创文章，作者：ppvke，如若转载，请注明出处：http://www.ppvke.com/archives/19090