1. 首页
  2. 数据分析

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。

————————作者说明——————————

CDA level 2 4天笔记。

重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。

有讲义的笔记都记录在讲义上。复习参考讲义。

2015/9/20

第一节笔记中讲述了软件的安装,第二节主要讲述数据前处理

————————–以下是正文——————————

MODELING

主要讲理论,参加纸质版ppt及笔记。此处操作为主。

贝叶斯

只能用SPSS

先挑选字段fetureslection(去除与target无关及互相有相关性的字段)<- 该模型不会自动选择输入字段,所以先自行挑选。

SPSS用统计的方式去计算,类别性用卡方 ->P value –>VALUE = 1- P value;数值型用方差anova(t test仅适用2个target类别)

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

可以人工选择。下面两个直接排除,因为单一值dominant

复制模型,直接套用在测试数据上。

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

再看测试数据,测试数据才是最终的训练结果。

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

Q&A 默认是Bayesian Network 没有NaïveBayes

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

上图红框这里可以调整null,即概率为0。

另外一种方式用MATRIX NODE评估

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

比刚刚多一个 P VALUE,越小说明比随机乱猜好。有100%的信息。

卡方越大,P越小。

还有一种方法检验:graph-> evaluation

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

这里没有算面积,EM有算。

linear regression

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

car name 都是文字而且太多,所以不能用。

origin摊平后尚可以用。

串接不同模型可以compare结果

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

回归树最好。

直接用节点导入文件,导入csv

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

EM 线性回归和逻辑回归自动摊平

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

比较模型,EM 没有MAE,只有MSE和R sqr

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

Regression Tree Generation

Algorithm: CART

进化版:model tree

SAS SPSS都没有 SQL SEVER R 有

Classification/Decision Tree

决策树和分类规则:分类规则用起来更好,因为可以optimization。决策树可以化成规则,规则未必可以化成决策树。

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

ID3:information gain

C4.5/C5.0:gain ratio = information gain/information value(分支度)

CART

CHAID

【dp_modeling.str】

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

发现C5.0在训练集不如贝叶斯。但是在测试数据集比较稳定。

Q&A 将模型导入SQL

神经网络

Logistic Regression

EM可以讲神经网络接在LOGISTIC DECISION TREE后面,因为前者会帮手选择字段并删除共线性字段

SPSS需要自己先选择,并删除共线性

Q&A如果LOGISTIC字段太少怎么办?可以用树选,然后log时选null或者根据排序自己手动选择字段。

Q&A 关于指标:风险KS常用。ROC?

——————分界线君:以上预测性,以下描述性—————-

聚类分析

SPSS

TWO STEPS

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

K-MEANS 设为3

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

Kohonen好像效果不好

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

可以用聚类结果作为target跑决策树。

来描述分到某一类的样本具有什么样的特色。

Association关联规则

Apriori

Q&A:confidence与统计学中的没关系。用了一个词儿而已。——这个困扰了我很久

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

Confidence为100%的时候,前提支持度与rule confidence一样

不产生 A->BC 因为怕run太久

EM可以做多个产品

SEQUENCE

MODELER: new node

EM : LINE NUMBER 作为时间。Association会自动变成sequence mining

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

Q&A模型互相组合。如先聚类,在关联规则。

产品有层级的,是否可以?-现在的软件都没有跨层的关联规则。

Q&A SVM 集成模型->投票

——————————–小节分割线———————————

在建模分析师中,数据挖掘(Data Mining)技术无疑是他们最强有力的核心竞争力。数据挖掘强调与现有信息系统的整合,以提供决策者做决策时所需的情报,或转化成经营智慧,以作为调整营运策略方针的辅助工具。以顾客关系管理(CRM)为例,数据挖掘是整个顾客关系管理的核心。其不但可以准确的定位目标市场,进行精准营销,还可以帮助业务人员了解客户深层需求,针对大量客户进行客制化,也就是所谓的一对一营销。本课程的目的就是要针对数据挖掘整套流程,根据CDA Level Ⅱ大纲标准,以金融、电信、电商和零售业为案例背景,结合SAS Enterprise Miner和SPSS Moderler深入讲授数据挖掘的主要算法。并将SAS语言和SQL进行有效的结合,讲授如何在实际工作中搭建数据挖掘环境,制定分类数据挖掘的标准流程,让学员胜任全方位的数据挖掘运用场景。

PPV课原创文章,转载请注明作者和原文链接!

CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文始发于微信公众号(PPV课数据科学社区):CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/19056

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息