1. 首页
  2. 数据分析

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDALEVEL II 数据建模师培训的上课内容整理而成的。

—————-– 作者说明——————

CDA level 24天笔记。

重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。

有讲义的笔记都记录在讲义上。复习参考讲义。

2015/9/20

第一节笔记中讲述了软件的安装,第二节主要讲述数据前处理

————-– 以下是正文——————

MODELING

主要讲理论,参加纸质版ppt及笔记。此处操作为主。

贝叶斯

只能用SPSS

先挑选字段fetureslection(去除与target无关及互相有相关性的字段)<- 该模型不会自动选择输入字段,所以先自行挑选。

SPSS用统计的方式去计算,类别性用卡方 ->P value –>VALUE = 1- P value;数值型用方差anova(t test仅适用2个target类别)

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

可以人工选择。下面两个直接排除,因为单一值dominant

复制模型,直接套用在测试数据上。

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

再看测试数据,测试数据才是最终的训练结果。

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

Q&A 默认是Bayesian Network 没有NaïveBayes

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

上图红框这里可以调整null,即概率为0。

另外一种方式用MATRIX NODE评估

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

比刚刚多一个 P VALUE,越小说明比随机乱猜好。有100%的信息。

卡方越大,P越小。

还有一种方法检验:graph-> evaluation

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

这里没有算面积,EM有算。

linear regression

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

car name 都是文字而且太多,所以不能用。

origin摊平后尚可以用。

串接不同模型可以compare结果

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

回归树最好。

直接用节点导入文件,导入csv

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

EM 线性回归和逻辑回归自动摊平

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

比较模型,EM 没有MAE,只有MSE和R sqr

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

Regression Tree Generation

Algorithm: CART

进化版:model tree

SAS SPSS都没有 SQL SEVER R 有

Classification/Decision Tree

决策树和分类规则:分类规则用起来更好,因为可以optimization。决策树可以化成规则,规则未必可以化成决策树。

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

ID3:information gain

C4.5/C5.0:gain ratio = information gain/information value(分支度)

CART

CHAID

【dp_modeling.str】

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

发现C5.0在训练集不如贝叶斯。但是在测试数据集比较稳定。

Q&A 将模型导入SQL

神经网络

Logistic Regression

EM可以讲神经网络接在LOGISTIC DECISION TREE后面,因为前者会帮手选择字段并删除共线性字段

SPSS需要自己先选择,并删除共线性

Q&A如果LOGISTIC字段太少怎么办?可以用树选,然后log时选null或者根据排序自己手动选择字段。

Q&A 关于指标:风险KS常用。ROC?

-分界线君:以上预测性,以下描述性-

聚类分析

SPSS

TWO STEPS

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

K-MEANS 设为3

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

Kohonen好像效果不好

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

可以用聚类结果作为target跑决策树。

来描述分到某一类的样本具有什么样的特色。

Association关联规则

Apriori

Q&A:confidence与统计学中的没关系。用了一个词儿而已。——这个困扰了我很久

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

Confidence为100%的时候,前提支持度与rule confidence一样

不产生 A->BC 因为怕run太久

EM可以做多个产品

SEQUENCE

MODELER: new node

EM : LINE NUMBER 作为时间。Association会自动变成sequence mining

​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

Q&A模型互相组合。如先聚类,在关联规则。

产品有层级的,是否可以?-现在的软件都没有跨层的关联规则。

Q&A SVM 集成模型->投票

————– 小节分割线 ————

在建模分析师中,数据挖掘(Data Mining)技术无疑是他们最强有力的核心竞争力。数据挖掘强调与现有信息系统的整合,以提供决策者做决策时所需的情报,或转化成经营智慧,以作为调整营运策略方针的辅助工具。以顾客关系管理(CRM)为例,数据挖掘是整个顾客关系管理的核心。其不但可以准确的定位目标市场,进行精准营销,还可以帮助业务人员了解客户深层需求,针对大量客户进行客制化,也就是所谓的一对一营销。本课程的目的就是要针对数据挖掘整套流程,根据CDA Level Ⅱ大纲标准,以金融、电信、电商和零售业为案例背景,结合SAS Enterprise Miner和SPSS Moderler深入讲授数据挖掘的主要算法。并将SAS语言和SQL进行有效的结合,讲授如何在实际工作中搭建数据挖掘环境,制定分类数据挖掘的标准流程,让学员胜任全方位的数据挖掘运用场景。

PPV课原创文章,未经许可严禁转载​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

PPV课-国内领先的大数据学习社区和职业培训平台,欢迎关注!

数据驱动未来,我们开启智慧!

原文始发于微信公众号(PPV课数据科学社区):​【笔记】CDA LEVEL II 数据建模师培训学习笔记(三)贝叶斯、神经网络等统计分析方法的具体操作

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/14470

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息