学习目标
1.学习Spark配置,掌握Spark集群部署;
2.学习RDD和Scala,掌握Spark调优和应用开发;
3.掌握Spark Streaming、Spark Sql使用技巧;
4. 学习MLib、SparkR和其他Spark生态组件;
学习对象
计算机专业背景的学生;
大数据工程师;
讲师介绍
罗老师,12年开始从事hadoop领域技术研究,14年专职从事spark技术研究与开发,目前在企业里从事spark相关工作,同时负责企业的内训,主讲spark部分。在14年夏做为Hadoop培训讲师,曾参与过广州汇丰银行的高级Hadoop课程(Hbase,Spark)培训,并与该企业中的一些学员互留联系方式并保持长期技术上的联系。曾参与EASYHADOOP社区14年11月活动,演讲《spark介绍及SPARKSQL应用》,获得学员和与会者的好评并有长期的技术层面联系。另外和知名IT培训网站北风网和PPV网合作在录制spark培训的视频
学习内容
第一讲_spark简介
Øspark介绍
ØSpark与hadoop的比较
ØSpark的使用场景介绍
Øspark软件栈
Ø动手搭建一个最简单的spark集群
Ø运行例子程序SparkPi
实战:单节点的spark部署和运行SparkPi
第二讲_spark部署模式介绍
ØSpark部署模式OverView
ØSpark启动过程详解
ØSpark集群部署之Standalone
ØSpark集群部署之Spark on Yarn
ØSpark集群部署之Spark on Mesos
实战:完全分布式的spark standalone和spark on yarn模式的动手实战
第三讲_spark集群硬件,开发语言和java版本的选择
Øspark集群硬件配置
Øspark开发的语言选择
ØJava版本的选择
第四讲_spark的rdd及其操作介绍
ØRDD介绍及创建
ØRDD的操作
ØRDD函数传递
Ø闭包
Øshuffle介绍
ØRDD的持久化
Ø共享变量
Ø常用transformation和action的API介绍
Ø在spark-shell里动手实战wordcount及常用API
ØScala介绍
实战:动手在Sparkshell中编写wordcount和linecount,以及动手实验常用的RDD操作。
第五讲_SparkSQL及DataFrame讲解
ØSparkSQL简介
ØSparkSQL之DataframeSave&Load
ØSparkSQL之Dataframe介绍及创建
ØSparkSQL之DataframeParquet
ØSparkSQL之DataframeJson&HiveTables
ØSparkSQL之DataframeJDBC&PerformanceTuning&Cli&ThriftServer
实战:Sparksql的Dataframe创建,配置,SparkSQL连接hive,及ThriftServer.
第六讲_SparkStreaming和DStream介绍
ØSparkStreaming的demo和介绍
ØDStream和DataSource
ØDStream的Transformation和output
ØDStream持久化,checkpoint,以及和DataFrame的交互
ØSparkStreaming应用的部署和监控
实战:1)Spark Streaming应用的监控与分析
第七讲_SparkStreaming性能调优,容错和Kafka集成
ØSparkStreaming的性能调优
ØSparkStreaming的容错
ØSparkStreaming与Kafka的集成
第八讲__SparkSQL项目实战之文本比对
实战:在spark上开发一个文本比对的SparkSQL的应用
第九讲_SparkStreaming+SparkSQL+Kafka项目实战开发
实战:在第八讲的基础上,继续开发一个sparkstreaming结合sparksql和kafka的流数据处理应用
原文始发于微信公众号(PPV课数据科学社区):【视频】大数据实战工具Spark 共64讲
原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/16729