写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。
————————作者说明——————————
CDA level 2 前4天笔记。
重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。
有讲义的笔记都记录在讲义上。复习参考讲义。
2015/9/20
第一节笔记中讲述了软件的安装,第二节主要讲述数据前处理
————————–以下是正文——————————
MODELING
主要讲理论,参加纸质版ppt及笔记。此处操作为主。
贝叶斯
只能用SPSS
先挑选字段fetureslection(去除与target无关及互相有相关性的字段)<- 该模型不会自动选择输入字段,所以先自行挑选。
SPSS用统计的方式去计算,类别性用卡方 ->P value –>VALUE = 1- P value;数值型用方差anova(t test仅适用2个target类别)
可以人工选择。下面两个直接排除,因为单一值dominant
复制模型,直接套用在测试数据上。
再看测试数据,测试数据才是最终的训练结果。
Q&A 默认是Bayesian Network 没有NaïveBayes
上图红框这里可以调整null,即概率为0。
另外一种方式用MATRIX NODE评估
比刚刚多一个 P VALUE,越小说明比随机乱猜好。有100%的信息。
卡方越大,P越小。
还有一种方法检验:graph-> evaluation
这里没有算面积,EM有算。
linear regression
car name 都是文字而且太多,所以不能用。
origin摊平后尚可以用。
串接不同模型可以compare结果
回归树最好。
直接用节点导入文件,导入csv
EM 线性回归和逻辑回归自动摊平
比较模型,EM 没有MAE,只有MSE和R sqr
Regression Tree Generation
Algorithm: CART
进化版:model tree
SAS SPSS都没有 SQL SEVER R 有
Classification/Decision Tree
决策树和分类规则:分类规则用起来更好,因为可以optimization。决策树可以化成规则,规则未必可以化成决策树。
ID3:information gain
C4.5/C5.0:gain ratio = information gain/information value(分支度)
CART
CHAID
【dp_modeling.str】
发现C5.0在训练集不如贝叶斯。但是在测试数据集比较稳定。
Q&A 将模型导入SQL
神经网络
Logistic Regression
EM可以讲神经网络接在LOGISTIC DECISION TREE后面,因为前者会帮手选择字段并删除共线性字段
SPSS需要自己先选择,并删除共线性
Q&A如果LOGISTIC字段太少怎么办?可以用树选,然后log时选null或者根据排序自己手动选择字段。
Q&A 关于指标:风险KS常用。ROC?
——————分界线君:以上预测性,以下描述性—————-
聚类分析
SPSS
TWO STEPS
K-MEANS 设为3
Kohonen好像效果不好
可以用聚类结果作为target跑决策树。
来描述分到某一类的样本具有什么样的特色。
Association关联规则
Apriori
Q&A:confidence与统计学中的没关系。用了一个词儿而已。——这个困扰了我很久
Confidence为100%的时候,前提支持度与rule confidence一样
不产生 A->BC 因为怕run太久
EM可以做多个产品
SEQUENCE
MODELER: new node
EM : LINE NUMBER 作为时间。Association会自动变成sequence mining
Q&A模型互相组合。如先聚类,在关联规则。
产品有层级的,是否可以?-现在的软件都没有跨层的关联规则。
Q&A SVM 集成模型->投票
——————————–小节分割线———————————
在建模分析师中,数据挖掘(Data Mining)技术无疑是他们最强有力的核心竞争力。数据挖掘强调与现有信息系统的整合,以提供决策者做决策时所需的情报,或转化成经营智慧,以作为调整营运策略方针的辅助工具。以顾客关系管理(CRM)为例,数据挖掘是整个顾客关系管理的核心。其不但可以准确的定位目标市场,进行精准营销,还可以帮助业务人员了解客户深层需求,针对大量客户进行客制化,也就是所谓的一对一营销。本课程的目的就是要针对数据挖掘整套流程,根据CDA Level Ⅱ大纲标准,以金融、电信、电商和零售业为案例背景,结合SAS Enterprise Miner和SPSS Moderler深入讲授数据挖掘的主要算法。并将SAS语言和SQL进行有效的结合,讲授如何在实际工作中搭建数据挖掘环境,制定分类数据挖掘的标准流程,让学员胜任全方位的数据挖掘运用场景。
PPV课原创文章,转载请注明作者和原文链接!
1、回复“数据分析师”查看数据分析师系列文章
2、回复“案例”查看大数据案例系列文章
3、回复“征信”查看相关征信的系列文章
4、回复“可视化”查看可视化专题系列文章
5、回复“SPPS”查看SPSS系列文章
6、回复“答案”查看hadoop面试题题目及答案
7、回复“爱情”查看大数据与爱情的故事
8、回复“笑话”查看大数据系列笑话
9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载
原文始发于微信公众号(PPV课数据科学社区):CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作
原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/19056