+关注我们
您的位置:首页 > R语言实战班

R语言实战班

课程详情

课程详情

《数据分析之R语言实战》

购买之后可加入PPV课答疑群-R语言 476523228  群内有老师答疑有讲课老师在群里指导

学习目标:

本课程结合大量的案例,让学习者可以快速掌握数据分析技能,并利用R实现各种数据挖掘模型的建立。学习完本课程,学习者能达到以下目标:1)掌握用R进行数据处理的能力;2)用R进行描述性统计分析和数据图形化;3)缺失值的清洗能力;4)用R语言建立数据挖掘模型;5)用R实现爬虫技术,用R搭建自己的app等核心技能。

学习对象:

数据分析师、数据科学家;

商业智能(BI)和企业数据仓库(EDW)的管理人员、建模人员、分析和开发人员、系统管理员等;

想了解和学习数据分析和数据挖掘实战的朋友。

学习内容:

《数据分析之R语言实战》

第一周:了解数据分析基本流程,清楚数据和变量、个体、总体、样本的概念;如何安装R和包,并懂得运用其他辅助工具帮助新手快速掌握R语言。

Ø 任务一:你认为一个数据分析师,一般需要具备怎样的技能?

Ø 任务二:安装RRStudio,并进行截屏贴图

Ø 任务三:安装Rcmdr包、rattle包、shiny

第二周:利用R语言进行数据清洗和转换工作。包括对缺失值的处理,构建新变量,类型转化,数据排序,数据集的合并,数据集取子集等基本数据处理方法,最后使用sqldf包在R中实现sql语句对数据处理工作。

Ø 任务一:安装sqldf包,并尝试利用SQL命令对R自带数据集的iris进行Species= ‘versicolor’的数据子集

Ø 任务二:利用R自带的数据集iris,增加一个新变量type,将Species= ‘versicolor’记录的type值赋值为1,其他记录的type值赋值为2,并将type类型转化成数值型变量。

第三周:熟悉基本数据分析方法,利用描述性统计分析、频数表和列联表、相关性了解单变量、多变量和各变量间的关系。

Ø 任务一:对R语言自带的数据集mtcars,计算各变量的最大值、最小值、均值、中位数、方差、标准差;

Ø 任务二:对R语言自带的数据集iris,求出前四个变量的相关系数,并对结果进行解读。


第四周:利用图描述方法对数据进行可视化,包括常用图表和茎叶图、马赛克图、星象图、脸谱图等。

Ø 任务一:对R自带数据集VADeaths,画出族状(并列)柱形图和堆积柱形图

Ø 任务二:安装脸谱包aplpack,对数据集longley1:9个变量画出脸谱图,并对脸谱图进行解读

第五周:清楚环比增长率和同比增长率,了解时间序列的基本原理,利用HoltWinters指数平移法和ARIMA模型进行预测,最后对游戏公司收入预测及R语言实现。

Ø 任务一:如何理解时序数据的平稳性和白噪声?

Ø 任务二:对系统自带的数据集USAccDeaths,建立ARIMA模型,并预测下一年每个月的数值。

第六周:了解回归和分类的概念,如何用R建立一元线性回归模型,多元线性回归模型,并对变量进行筛选;利用R语言实现Logic回归分析和判别分析。

Ø 任务一:利用R自带的数据集,以Speal.Length为因变量,Sepal.Width为自变量,建立一元线性回归模型(分有截距和没有截距两种情况),并判断自变量的显著性情况

Ø 任务二:对R自带的数据集swiss,以Fertility为因变量,其他为自变量,建立多元线性回归模型,并通过step( ),对模型进行调优。

第七周:熟悉处理缺失值的步骤,认识缺失值,利用可视化手段探索缺失值,对有缺失值数据进行处理。

Ø 任务一:你认为数据缺失值产生的原因,处理数据缺失值的方法?

Ø 任务二:安装VIM包,查看数据集sleep的缺失情况,并用图形探究数据缺失情况。

第八周:学习数据降维技术,包括主成分分析、因子分析、对应分析技术,并通过实际案例演示清楚这部分数据分析技术在实际数据中的应用场景。

Ø 任务一:谈谈主成分分析、因子分析的相同点和区别;

Ø 任务二:对R自带的数据集USArrests建立主成分分析模型,对模型结果进行解读,并画出碎石图。

第九周:了解常用的距离测量方法和聚类算法,利用全国区域经济数据进行距离分析案例演示;清晰关联(购物篮)分析的原理及在R的实现,并利用关联规则可视化包arulesViz对规则进行可视化展示。

Ø 任务一:对R自带的数据集USArrests建立层次聚类模型,并利用plot函数对结果进行画图;

Ø 任务二:对R自带的数据集Titanic,画出马赛克图查看数据情况,并建立关联规则模型。

第十周:熟悉决策树、bagging、随机森林、最近临近法、人工神经网络、支持向量机等在R的实现,并对分类器的性能进行评估。

Ø 任务一:对R自带的数据集iris,以Species变量为目标变量,其他变量为解释变量,利用课程中提到的算法建立分类模型(至少使用三种模型);

Ø 任务二:对任务一建立的三个模型进行评价,找出最优模型。

第十一周:R语言爬虫篇,运用quantmod包、XML包、RCurl包进行网络数据的爬虫及处理工作;课程演示豆瓣、团购网数据爬虫的R实现。

Ø 任务一:利用quantmod包抓取AppleMicrosoftOracleGoogle公司2011-2012年交易行情数据;

Ø 任务二:利用RCurl包爬取深圳拉手网美食的所有商家,主要信息包括商家名称、商家地址、优惠价格和原来价格。

第十二周:初探shiny包,快速用R搭建网页app应用,包括电力行业自助式数据分析平台的搭建案例演示和游戏行业的游戏数据监控平台搭建案例演示。

Ø 任务一:制作自己的第一个shiny包,标题栏是“HelloShiny!”。

Ø 任务二:制作具有如下功能的交互式应用:利用iris数据前四列,建立kmeans模型,并将模型进行app部署,能实现模型随着不同分类k的变化而变化。

参考资料

1R导论》

2R语言实战》

3R语言编程艺术》

4R in nutshell

5《多元统计分析及R语言建模》

6《统计建模与R软件》

7  R官网(http://www.r-project.org/

8RStudio官网(http://www.rstudio.com/

购买该课程后可加QQ群322716560,有讲课老师在群里指导


第一周任务
第二周任务
第三周任务
第四章任务
第五周任务
第六周任务
第七周任务
第八周任务
第九章任务
第十周任务
第十一周任务
第十二周任务
资料下载
名称 大小

最近学习的学员

教师

    老师头像-PPV课
谢佳标
从事数据分析挖掘工作超过8年,从事过咨询、电商、电购、电力、游戏等行业,了解不同领域的数据特点。精通Excel、SpssClementine、SAS、R等多种数据分析挖掘工具。目前就职于一家上市游戏公司的高级数据分析师,主要利用R语言进行大数据的分析挖掘工作。有丰富的利用R语言进行数据分析挖掘实战经验,部分研究成果曾获得国家专利。

该老师其他课程

资料修改成功!
确定

小V: 点击这里给我发消息

Jedis:点击这里给我发消息

关闭