一、课程介绍
课程名称:Python进阶:数据挖掘算法
课程价格:299元
课程模式:视频
课程亮点:本课程实用的数据库是安然丑闻事件的电子邮件数据库,数据库包含了几十万封电子邮件,我们的课程讲从这几十万封电子邮件的原始邮件入手,教会你一步一步的处理,整理数据,最后用整理好的数据建模、预测。以此来达到真真正正的会从最一开始分析真正的数据。
二、课程介绍
本课程讲解现在工业界和学术界流行的机器学习算法的相关知识,以及如何用python去实现这些算法。算法的讲解包括supervised learning和unsupervised learning 两个部分。其中supervised learning包括classification和regression的若干流行的模型的讲解。Unsupervised learning部分,我们会讲解clustering和principle component analysis等算法。除此之外,课程还包括用python进行文本数据预处理过程的讲解,以及model evaluation和 cross-validation等实际应用中经常运用的技术。
所有机器学习的算法讲解都会配合着python的程序进行说明。本课程的讲解和作业中的具体实例数据是2001年美国安然公司破产丑闻事件中的电子邮件数据。数据包含了几十万封电子邮件。我们将教会大家如何利用数据挖掘的算法来分析这些电子邮件,提取出来有效的信息。
三、学习目标
本课程结束的时候,学员将会掌握以下的技术:
1. 如何用python进行实际世界中的文本文件的预处理,把数据转化成建立模型前所需要的数据结构。
2.分类模型:K-nearest neighbor Model,Naïve Bayes Model, Support Vector Machine, Decision Tree, Bagging 和Random Forest 模型。
3. 回归模型: Simple Regression Model, LASSO, Ridge Regression 模型。
4. Unsupervised Learning: K-mean, PCA模型。
5. Cross-Validation, Model Evaluation, Feature Selection etc.
上述的所说的技术都将用安然事件的数据进行实战的分析。
四、学习对象及须知
1. 本课程将全程用中文讲解,但是涉及到专业词汇的部分将用英文。如果对专业词汇的英文不熟悉也没有关系,在课程的进行中我会对专业词汇的中文进行说明。
2. 学习本课程之前,你需要有一些python的基础,比如说熟悉python的基本数据结构和数据类型(list, string, etc),并且熟悉for 循环的写法,知道如何用python写函数等等。你不需要有面向对象编程的知识。
3. 本课程用到的python的包主要是sci-kit learn, numpy和nltk。学本课之前,你不需要有这些包的使用经验,课上都会从头开始教。但是,如果你熟悉一点numpy,知道numpy array是什么,这会让你学起来更容易。
4. 你需要有基本的统计学的知识,稍微了解机器学习大概是干什么的。比如说,你知道回归、分类是为了完成哪些工作的,再比如说你知道我们要建立模型的数据X和y分别代表什么意思。但是具体的模型,在学习本课程之前你不需要有任何基础知识。
5. 本课程对模型的讲解主要侧重点在于模型所能完成的任务,模型用python程序的实现,以及模型的优点和缺点。这不是一个数学课,模型内在的数学原理和推导过程不会过多过细的讲解。数学原理的部分,只会用简单的直观的让人容易理解的方式讲解模型的原理。
6. 本课程实用的数据库是安然丑闻事件的电子邮件数据库,数据库包含了几十万封电子邮件,我们的课程讲从这几十万封电子邮件的原始邮件入手,教会你一步一步的处理,整理数据,最后用整理好的数据建模、预测。以此来达到真真正正的会从最一开始分析真正的数据。
五、讲师介绍
费博士, 吉林大学计算机专业学士,中央财经大学统计学硕士,纽约州立大学石溪分校统计学博士。计算机专业和统计学专业的双重背景让费博士自然而然的进入了机器学习的领域。费博士有非常扎实的统计学基本功和扎实的编程技巧,有8年的R语言使用经验和5年的python使用经验。
费博士博士阶段的研究领域集中在tree-based model, 他改进了random forest算法,改进的算法在高维数据的应用中有显著的效果。
Text learning是费博士感兴趣的领域之一,希望本课程可以带领大家进入text mining的领域,让大家认知到如何用machine learning的技术来做text mining。
六、学习内容(课程结构)
Syllabus (课程结构)
Class 1: Software Set Up and Python Review
1.1 Anaconda的安装以及IPython Notebook的应用
1.2 Python Review: Core Data Structures
1.3 File Input/Output using Python
Class2: Numpy Introduction
2.1 Numpy Array and its Operations
2.2 Numpy File Input/Output
Class3: Pandas Introduction
3.1 Pandas Data Frame and its Operations
3.2 Pandas File Input/Output
Class4: Regression Model
4.1 Machine Learning的简介
4.2 Simple Regression Model
4.3 Simple Regression Model with Basis Extension
Class 5 Regularized Regression and Cross-Validation
5.1 Regularized Regression Model: LASSO
5.2 Regularized Regression Model: Ridge Regression
5.3 Tuning Parameter and Cross-Validation
Class 6: Classification Models
6.1 Logistic Regression
6.2 Naïve Bayes Model
6.3 K-nearest neighbor Model
6.4 Support Vector Machine
6.5 Decision Tree Model
6.6 Ensemble Method: Bagging
6.7 Ensemble Method: Random Forest
Class 7: Text Learning
7.1 File Input and Output Review
7.2 Stemming Words
7.3 Enron Project: TF-IDF Transformation
7.4 Enron Project: Feature Selection
Class 8: Unsupervised Learning:
8.1 Clustering: K-mean Method
8.2 Dimension Reduction: Principle Component Analysis
备注:购买课程的学员,请加入Q群:271290500 代码在群里共享。
原文始发于微信公众号(PPV课数据科学社区):Python进阶:数据挖掘算法
原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/17827