写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。
—————————————–作者说明——————————————————
CDA level 2 前4天笔记。
重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。
有讲义的笔记都记录在讲义上。复习参考讲义。
2015/9/20
上一节笔记中讲述了软件的安装,这一节主要讲述数据前处理
1. Attribute Selection
数据整合;
数据过滤:
建立区隔化模型(SAS FILTER)不同客群,用不同的变量进行建模。如高收入人群的年龄比较不重要。
难点在于如何知道哪个字段可以区隔。
2. DATA CLESNSING 数据清洗:噪声消除。
针对类别数据,找错误值
purpose x->undef或者‘$null$’
针对数值数据,找离群值
平均值法min=avg-3std max=ave+3std老师的例子中不适用,因为数量小,outlier影响均值和标准差较大。
四分位数法 Q1+1.5IQR;
离群值3.0(3个标准差)极端值5.0(5个标准差)
1.5 IQR 3IQR
找到outlier可以: 视为空值(不推荐,可能在填补时成为错误值);试用ceiling和floor发;函数矫正法(取log,不推荐)
使用SAS replacement可以处理错误值+outliers
空值处理-遗缺值的填补:
有的模型不能够有遗缺值。空值处理一定最后,因为前期处理可能会造成空值;
空值要删除的情况:目标字段没有值则删除;字段缺失大于一定比例字段删除:EM规定50%。也可以将整个字段变为INDICATOR VARIABLE。有值为1,无为0。反正这个字段也不可以正常使用,所以转变为指示变两个确有可能有预测意义。
人工填补法
自动添补法:填入未知-不用因为可能解读不易,除非确定;填众数,比较容易猜中,不是很客观;分群求众数-比如发现某一字段跟其他字段有关联,则根据其他字段分组,求每组的众数;最好的做法用分类法,求出最好的值填入-以有空值的字段为TARGET做模型。
—R:根据个人经验,先看业务,知道空值和错误值得由来最佳。
SPSS
先接一个type从新读值。再使用audit。直接运行,选择quality,看哪些需要处理,选择要处理的内容和处理方法。填补方法选specify
C&RT 决策树的方法
选好后generate supernode
点入砖石黄金节点查看。
导出table查看。
数值型填补:分群平均值;数字预测的建模问题。
EM
impute选择tree tree
可以预览,预览时原来字段会保留,自行reject,不用担心
3.字段扩充 enrichment
临床路径
直接接C5.0
5层决策树
看正确率
再试一下plot 可以看2个
斜线关系,可以有衍生变量—比例-derive NA/K,则删除K,NA。变量之间相关性强,则会影响模型。
效果不错,发现大于某个值,都是用drugY
用C5.0决策树,仅需要3层决策树。
【插】—————-学生案例:银行5年->teredata
4.CODING
数据转化
->数据正规化
DATA NOR: 极值正规化 V’ = (V-MIN)/(MAX-MIN)
ZSCORE v’=(v-avgv)/std
->算数据一般化 generalization
概念阶层向上提升
数据精简的方法 EM Replacement
案例 germen贷款目的太多,要合并,用distribution来看purpose里哪些可以合并。A42/A44逾期概率非常相近。一个家电、一个家具,可以合并。
EM. REPLACEMENT -> REPLACEMENT VALUE 与处理错误值的方法一模一样
Q&A EM不能画图,可以用EXCEL链接数据库画图,数据不用down下来。
读入数据FILE IMPORT drug->variables 设定->建模:选择Tree【2个节点】
看result
这种decision Tree 综合四种不同的决策树。而SPSS中有4种。
衍生性变两个:MODIFY-TRANSFORM VARIABLE-左侧设置FORMULAR-左上角CREATE,产生一个衍生变量再接决策树,在run之前还要删除NA K
TREE的大小用叶节点看来,共6个叶节点
ACESS -> Model comparison
Q&A1: RANDOM GUESS AND RANDOM GUESS LINE : RANDOM GUESS ABEY RATIO AND THE 45 DEGREE LINE IS A REFLECTION OF RANDOM GUESS
Q&A2: HOW TO PLOT : imported data ->TRAIN-> EXPLORE -> PLOT – > SCATTER
HISTOGRAM 不可以跟目标发生关系,BAR可以,但是如果用年龄,则一个年龄一个BAR,不好。
->数据形态转化
类别转换成数值型
数值型转换成类别型– 银行评分卡常需要对年龄切割分箱。数值型属性常常是模型不稳定(转用测试时,准确度大幅下降)的来源之一。可以尝试用皮尔森系数看测试与训练的关系。(Q&A: )
怎么做数值型属性离散化。现在银行评分卡用人工看,专家看。BINNING METHOD自动切。EQUAL-WIDTH-INTERVAL:会受到outlier影响很大;EQUAL-FREQUENCY-INTERVAL
要试,如何判断好不好?逾期率。可以用画图
我记得有一个专门做这个东西的node
一个易于理解和解释的分析结果:对target有明显相关性。
等宽等频都不好。要怎么做?先切小,再合并。逢低切。
效果不好,集成别人算法。不如EM好。
EM:离散化 transform variable -> Variable ->IMP_REP_duration
离散后验证 transform variable –> exported data
EM有评分卡的包。1000多万台币
【插】—————-AAEM 考试。
。OPTIONS -> PREFERENCE -> FETCH SIZE:MAX explorer时旁边的统计结果是全量
变数重要性statexplore卡方统计量
左偏右偏
kurtoses峰度
TARGET是0,破产1 STATEXPLORE有分跟目标的关系
->数据精简DATA REDUCTION
RECORD REDUCTION
抽样方法
VALUE REDUCTION
ATTRIBUTE REDUCTION
->数据集的切割
训练测试目标分布要一样
SPSS 示例
设定random seed则抽出来的每次都一样。数字跟可能性的余数那一组
这样可以绝对选择800比。
但是未必可以保证目标变量的比例与原样一致
这样可以保证3:7
将training test都输入SAV格式,可以保留设定的字段属性。
新建stream 读入,接
将2个stream存为一个project
EM
数据切割data partition: training 60% validation 20% (修正模型,防止过度拟合) test:20%
EM 预设分层随机抽样,不用去设定抽样。如果没有目标字段,则随机
下一节:CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作
———————–小节分割线———————-
在建模分析师中,数据挖掘(Data Mining)技术无疑是他们最强有力的核心竞争力。数据挖掘强调与现有信息系统的整合,以提供决策者做决策时所需的情报,或转化成经营智慧,以作为调整营运策略方针的辅助工具。以顾客关系管理(CRM)为例,数据挖掘是整个顾客关系管理的核心。其不但可以准确的定位目标市场,进行精准营销,还可以帮助业务人员了解客户深层需求,针对大量客户进行客制化,也就是所谓的一对一营销。本课程的目的就是要针对数据挖掘整套流程,根据CDA Level Ⅱ大纲标准,以金融、电信、电商和零售业为案例背景,结合SAS Enterprise Miner和SPSS Moderler深入讲授数据挖掘的主要算法。并将SAS语言和SQL进行有效的结合,讲授如何在实际工作中搭建数据挖掘环境,制定分类数据挖掘的标准流程,让学员胜任全方位的数据挖掘运用场景。
PPV课原创文章,转载请注明作者和原文链接!
原文始发于微信公众号(PPV课数据科学社区):CDA LEVEL II 数据建模师培训学习笔记(二)数据前处理
原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/19090