随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及Android程序员。
Hadoop入门薪资已经达到了8K以上,工作1年可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万—50万。一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!
一、学习时间和地点
l培训名称:Hadoop+spark精英强化培训班 l培训周期:6天 l培训时间:2016年4月9-10号 、23-26日 l培训地点:深圳南山科苑路6号科技工业大厦2F西201 l上课时间:上午9:00-12:00,下午13:30-17:00 l报名方式:点击底部阅读原文,填写报名表 |
二、面向对象
1、系统架构师、系统分析师、高级程序员、资深开发人员。
2、牵涉到大数据实时处理的数据中心运行、规划、设计负责人。
3、政府机关、金融保险、移动和互联网等大数据来源单位的负责人。
4、高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。
5、需要了解大数据,或者需要熟知大数据管理、维护、开发和数据分析的人
学员基础:
1、对IT系统设计有一定的理论与实践经验。
2、数据仓库与大数据实时处理有一定的基础知识。
三、学习收益
1、动手Clouders Manager的安装和部署;
2、熟知CDH的安装配置和解决越到的问题;
3、熟悉Hadoop分布式文件系统;
4、懂得hdfs分布式文件系统的使用;
5、了解MapReduce工作原理;
6、熟知Hadoop集群硬件配置规划;
7、懂得Hadoop集群配置及优化;
8、学会如何维护和监测Hadoop集群;
9、学会怎么使用Sqoop连接关系数据库进行数据导入导出;
10、了解Hive数据仓库的开发和应用;
11、Hue的web页面的数据库开发;
12、精通Hbase列式数据库的开发;
13、掌握大数据挖掘分析基础;
14、了解数据挖掘常见的几种工具和对比;
15、了解几种常用的挖掘算法原理;
16、了解大公司对大数据的应用场景和未来方向;
17、全面了解大数据实时处理技术的相关知识;
18、学习Spark的核心技术方法以及应用特征;
19、深入使用Spark在大数据处理中的使用;
20、掌握BDAS相关工具及其主要功能学会简单的scala编程
四、讲师介绍
陈老师:九年相关项目经历,长期从事大数据相关的工作,精通大数据技术,熟悉关系型数据库oracle10GMysql等;精通Hbase、HDFS、Hive、Pig等开源技术,对实时处理Storm、Impala有较深的认识,熟悉分布式计算MapReduce。非常精通数据挖掘算法和解决方案,比如决策树、K-means、预测分析、Logistc线性回归、Apriori算法应用熟悉电信、移动、电力、证券、网络、物流等业务。
五、课程介绍
时间 |
主题 |
主要内容 |
第一天 |
第一部分:CentOS系统和Cloudera Manager安装配置 |
1.VMware虚拟机安装和配置 2.CentOS6.5且64位系统安装 3.简单的配置和遇到的问题 4.动手和实操 5.Cloudera Manager的离线安装 |
第二部分:Cloudera CDH的安装和配置及环境的测试 |
1.Cloudera CDH的离线安装的环境准备和配置,注意事项 2.单机版、伪分布式、真分布式介绍和区别 3.详细介绍了CDH的部署配置,遇到的问题,怎么解决 4.HDFS分布式文件系统的安装配置和测试 5.hdfs的权限配置,目录创建,目录查看等命令的使用 |
|
第二天 |
第三部分:如何构建分布式数据仓库平台 |
1.怎么样才算是真正意义的大数据平台 2.开源Hadoop生态系统的介绍 3.数据采集过程与分布式存储 1)ETL原理 2)Sqoop 3)HDFS 4.数据仓库与数据分析介绍 1)MapReduce 2)Hive 3)Pig 4)HBase 5)Impala 5.集群监控与调度组件 1)Hadoop集群权限管理 2)Hbase列数据库监控 3)Hive集群监控 4)Oozie介绍 6.Hue介绍和例子讲解 7.日志收集工具 1)flume 2)kafka 8.练习 9.案例讲解 1)运营商全国用户上网记录案例介绍 2)IBM网上舆情分析 |
第四部分:大数据平台部署及案例 |
1.我们应该选哪种Hadoop? 1)选哪个版本?为什么? 2)优点和缺点 2.集群硬件应该如何选配? 1)网络拓扑 2)内存 3)硬盘 4)CPU 5)价格 3.部署案例讲解 1)英特尔Hadoop发行版详解 2)某省级通信运营商清帐单查询系统介绍 |
|
第三天 |
第五部分:Hbase列数据库及应用案例 |
1.Hbase感性认识 1)Hbase简介 2)Hbase特点 3)HBase与RDBMS对比 4)HBase体系结构 5)Hbase常见概念 2.Hbase主要组成 HBase基本命令介绍 Zookeeper、Hmaster HRegionServer、Region HStore存储、Hfile Hbase内部扫描RowKey的原理 Hbase内部读写原理 HBase设计原理、架构分析 Hadoop+HBase伸缩性(自动扩容、热部署) HBase相关表结构设计(列族、列详细分析) HBase主HMaster与备用HMaster间的切换原理 3.Hbase性能测试 测试数据 测试过程 测试结论 和Oracle Rac等进行对比 4.Hbase设计原则和优化 Hbase的RowKey设计原则 性能参数的设置 性能参数的调整 模型和性能优化 5.练习 6.项目案例: HBase在小米业务的应用 |
第六部分:大数据挖掘介绍 |
1.大数据挖掘几种方法 1)传统数据挖掘 2)SPSS_Modeler14.2 3)SAS简介 4)Mahout简介 5)R语言详解 6)RhadoopRhive 2.算法介绍和应用 1)关联分析 2)K-Means 3)决策树C5.0 4)Logistic回归 5)主成分/因子分析 6)Apriori算法 7)预测算法 8)神经网络 9)协同过滤挖掘算法 3.例子和练习 |
|
第四天 |
第七部分:大数据挖掘应用案例详解 |
1.项目案例详解 1)TF-IDF与余弦相似性的应用 2)电力行业的大数据应用 2.大数据在电信行业应用 1)用户行为编好分析 2)电信客户流失预测分析 3.大数据在零售行业应用 1)销售产品关联分析 2)营销产品推荐系统 3)门店客流量预测案例 |
第五天 |
第一讲Spark大数据实时处理技术 |
1、大数据处理技术 2、Spark实时处理技术 3、Spark生态系统BDAS 4、Spark架构分析 |
第二讲Spark安装配置及监控 |
1、虚拟机环境的准备 2、Hadoop2.X和Scala 3、搭建Spark开发环境 4、Idea编译和运行 5、Spark监控管理 |
|
第三讲Scala编程语言使用概述 |
1、Scala编程语言 2、基本数据类型 3、操作基本数据类型 4、类和对象 5、组合和继承 |
|
第六天 |
第四讲Spark分布式计算框架 |
1)Spark计算模型 2)弹性分布式数据集RDD 3)Spark的数据存储 4)Transformation算子分类及功能 5)Actions算子分类及功能 |
第五讲SQL On Spark |
1)BDAS数据分析软件栈 2)SQL On Spark 3)Spark SQL工具使用 4)Shark工具使用 5)Hive on Spark工具 6)Spark操作HBase中的数据 |
|
第六讲Spark在业界的应用案例 |
1)Spark在Amazon的应用 2)Spark在Yahoo!的应用 3)Spark在Telefonica的应用 4)Spark在淘宝的应用 |
六、培训时间和价格
上课形式 |
价格 |
备注 |
公开课 |
2980元/人 |
1)含上课费、管理费 2)工信部证书 |
内训 |
另议 |
颁发证书:工信部《大数据技术》初级证书。
颁发工信部通信行业职业技能鉴定指导中心颁发的《大数据技术》初级专项技术培训证书(证书费用:200元/人)
七、公司简介
深圳市飞博远创科技有限公司位于深圳市南山区科技园,是一家专注于大数据人才职业培训的互联网公司。教学内容主要为数据分析、数据挖掘、数据可视化、Hadoop、SAS/SPSS相关课程和认证培训;培训教师来自国内知名高校教师以及企业资深IT专家,技术功底深厚,项目和培训经验丰富。 我们服务过的客户包括广东省省情调查中心、金蝶软件、融创天下、广州流行美等知名企业。
公司旗下PPV课是国内领先的大数据学习社区,注册用户超过2万人,我们与国内顶尖的学校和机构合作,拥有国内目前最全的大数据网络课程和近20人的专业教师队伍。
八、联系方式
深圳市飞博远创科技有限公司
网站:http://www.ppvke.com
热线:400-070-7620
地址:深圳南山区科苑路6号科技工业大厦2F西201
点击底部阅读原文,填写报名表
原文始发于微信公众号(PPV课数据科学社区):【培训】hadoop+spark精英强化培训班(6天),4月3日报名截止,欲报从速!全程上级实操,招招试用,助你加速成长!
原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/15647