Cloudera Hadoop认证培训课程 | 4季度培训计划













课程大纲

【Cloudera Apache Hadoop程序员课程】(通过考试可颁发CCDH全球认证证书)

课时:4天

学习Hadoop分布式文件系统(HDFS)基础和MapReduce框架以及如何利用其API来编写程序,

讨论为更大型的工作流程而设计技术。

这门4天的课程涵盖了为MapReduce程序修复漏洞和优化性能所需的高级技巧。

程序员课程也引入了Apache生态项目比如Hive、Pig、HBase、Flume和Oozie。

在完成课程后,学员被鼓励参加Cloudera认证Apache Hadoop程序员(CCDH)考试。

【课程内容】

1、MapReduce与HDFS内核知识以及如何编写MapReduce程序

2、Hadoop开发的最佳实践,调试、实现工作流及通用算法

3、如何利用Hive、Pig、Sqoop、Flume、Oozie及其他Hadoop的组件

4、按需定制WritableComparables与InputFormats处理复杂的数据类型

5、利用MapReduce编写、执行连接操作以整合不同数据集合

6、用于现实世界数据分析所需的高级HadoopAPI主题

7、用Java写MapReduce程序,用Streaming写MapReduce程序

8、调试MapReduce代码的策略,利用localjobrunner在本地测试MapReduce代码

9、Partitioners和Reducers如何一起工作,定制化Partitioners

10、定制Writable和WritableComparable

11、用SequenceFile和Avro数据文件存储二进制数据

【学员基础】

该课程适合具有一定编程经验的程序开发人员。由于课程中需要完成Hadoop相关编程练习,熟悉Java者优先

【授课形式】

案例教学+上机实践

【Cloudera Apache Hadoop管理员课程】(通过考试可颁发CCAH全球认证证书)

课时:4天

学习系统管理的概念和Apache Hadoop的最佳实践,

从安装和配置到负载均衡和调优。

这个4天的的课程通过动手时间来赋予你部署的经验,

以及更多的安全方面的经验和故障排除。

课程结束后,学员被鼓励去参加Cloudera和Apache Hadoop管理员(CCAH)考试。

【课程内容】

1、Hadoop分布式文件系统(HDFS)

2、YARN/MapReduce的工作原理

3、如何优化Hadoop机群所需要的硬件配置

4、搭建Hadoop机群所需要考虑的网络因素

5、Hadoop机群维护和控制

6、如何利用Hadoop配置选项进行系统性能调优

7、如何利用FairScheduler为多用户提供服务级别保障

8、Hadoop机群维护和监控

9、如何使用Flume从动态生成的文件加载到Hadoop

10、如何使用Sqoop从关系型数据加载数据

11、Hadoop生态系统工具(如Hive、Impala、Pig和Base)

【学员基础】

具备基本Linux系统管理经验。不需要事先掌握Hadoop相关知识。

【授课形式】

案例教学+上机实践

【Cloudera Apache HBase课程】(通过考试可颁发CCSHB全球认证证书)    课时:4天

学习如何将HBase作为一个分布式的数据储存以实现低延迟的查询和高扩展的吞吐。

这4天的课程涵盖了HBase架构、数据模型、Java API及其他高级课题和最佳实践。

完成该课程后,学员被鼓励参加cloudera认证Apache HBase专家(CCSHB)考试来验证和认证其Hadoop经验。

【课程内容】

1、什么是HBase、为什么要用HBase,HBase和RDBMS,HBase的给予和索取

2、HBase系统管理API,HBase Shell、创建表、HBase Java API、系统管理调用

3、通过HBase API访问数据,API的使用、数据检索、在shell添加和更新数据、删除数据

4、用API添加、更新数据,Scan API、高级API技术、使用Eclipse

5、集群组件、HBase如何扩展,HBase写路径、读路径,压缩和拆分

6、HBase的安装、配置及其安全性

7、HBase daemnon、ZooKeeper、HBase系统管理

8、复制、备份、MapeRduce和HBase集群

9、HBase里RowKey设计,从关系数据库到HBase表结构设计,以应用为中心的设计

10、列族、表结构设计的考虑点、热点处理

11、HBase生态系统:OpenTSDB、Kiji、HBase和hive

【学员基础】

该课程适合需要使用HBase的开发员和管理员。

预备的数据库和数据建模的经验有帮助,但不是必须的。

预备的Java知识有帮助,Hadoop经验不是必须的,

但是cloudera的Apache Hadoop开发培训课是个绝佳的基础。

【授课形式】

案例教学+上机实践

【Cloudera 数据分析课程】    课时:4天

针对任何需要在Hadoop上实时地通过SQL和熟悉的脚本来管理、操纵和查询大型复杂数据的人。

学习Apache Pig、Apache Hive和Cloudera Impala如何通过过滤联接和其他用户自定义的功能

来支持数据的转型和分析。

【课程内容】

1、Hadoop生态圈、实验场景介绍、用Hadoop工具导入数据

2、pig的特性、使用案例、和pig交互、pig Latin语法、Field定义、用pig执行ETL流程

3、pig处理复杂数据,复杂/nested嵌套的数据类型、用pig分析广告战役的数据

4、pig的多数据组操作,pig链接多数据组、用pig分析离散的数据组

5、用流处理和UDFs扩展pig,Macros和Imports、contributed functions,用其他语言和pig一起处理数据

6、pig故障排查和优化,用web界面排查一个故障的任务、Data采样和故障排查、理解执行计划、提高pig任务性能

7、hive表结构和数据储存、对比hive和传统数据库、hive vs.pig、hive使用案例

8、hive的关系数据分析、数据管理、文本处理、优化及扩展,在shell、脚本和hue上运行hive查询

9、impala和hive、pig、关系数据库的不同、使用impala shell

10、采样impala分析数据,过滤、排序and limiting results,提升impala性能,impala的交互式分析

11、对比map reduce、pig、hive、impala和关系数据库

【学员基础】

该课程适合有SQL经验和基本UNIX和Linux命令的数据分析师、业务分析师和管理员

事先无需Java和Apache Hadoop的经验

【授课形式】

案例教学+上机实践

【Cloudera Apache Spark程序员课程】

课时:4天

采用Apache Spark来创建集成了批处理,流计算和互动式分析的完整,统一的大数据应用。

学习编写复杂的并行应用来履行更快的商业决策和更好的用户产出,并将其应用到广泛的应用场景,架构和行业。

这门4天的课程针对那些希望在应用的速度,易用性和高级分析方面进行优化的程序员和软件工程师。

【课程内容】

1、用Spark shell执行互动式数据分析

2、Spark的弹性分布式数据集(Resilient Distributed Datasets)的特性

3、Spark怎样运行在一个集群上(一个独立的Spark集群)

4、Spark的并行编程、编写Spark应用、用Spark处理流数据

5、RDD Partitions和HDFS数据局部性、使用Partitions、并行操作

6、Spark应用对比Spark shell、创建Spark context、配置Spark shell属性

7、Spark Streaming简介、开发Spark Streaming应用

8、Streaming的Word Count、其他Streaming操作、滑动窗口操作

9、Spark、Hadoop和企业数据枢纽(EDH)

10、Spark和Hadoop生态圈、Spark和MapReduce

11、Caching and Persistence(RDD溯源、Caching缓存简介、分布式持久化机制)

【学员基础】

该课程适合具有一定编程经验的程序开发人员,课程样例和练习涉及到Python和Scala语言。

需要Linux的基本知识,事先无需Hadoop经验。

【授课形式】

案例教学+上机实践

【Designing and Building Big Data Applications】(数据建模)

课时:4天

学习运用Apache Hadoop和企业数据枢纽中的关联工具来分析和解决实际问题,

你会遍历其设计和创建的整个过程,包括数据导入,决定恰当的文件格式来存储,

处理预存的数据,及用一个容易理解消化的形式向最终用户呈现结果。

这门4天的课程面向那些需要研发高度业务相关的应用的数据家。

【课程内容】

1、定义使用Data Sets,Metadata管理、Apache Avro、Avro Schemas演变

2、什么是the Kite SDK ,Fundamental Data Module基础概念Concepts,用Kite SDK创建新数据组

3、用Apache Sqoop输入关系数据,基本输入、限制结果、提升Sqoop性能、Sqoop 2

4、用Apache Flume捕获数据,Flume自定义组开发、使用Flume自定义拦截器写Avro对象

5、采用Apache Oozie管理工作流,定义Oozie工作流,验证、封包、部署,Oozie的Hue用户界面

6、用Apache Crunch处理数据管道,对比Crunch和Java mapreduce,应用Crunch projects,Crunch API的工具分级

7、使用Apache Hive里的表格,Basic Query Syntax,在Hive里采用RegexSerDe

8、开发用户定义功能,实现一个用户定义功能,用Impala执行互动式查询,数据和元数据管理

9、理解Cloudera Search,Search架构、支持的文件格式

10、用Cloudera Search创建索引,Collection and Schema Management,Morphlines

11、Solr Query Sybtax,采用Hue创建搜索UI,通过JDBC访问Impala,用Impala和Search增强定制的web应用

【学员基础】

该课程最适合需要使用Hadoop及其相关工具来解决现实问题的程序员、工程师和架构师。

学员应该预先参加过cloudera的Apache Hadoop程序员培训或有相当的实践经验。

需要良好的Java知识,熟悉Linux。SQL经验会有帮助。

【授课形式】

案例教学+上机实践

课程表

上海 11月29-12月2日

Cloudera Developer Training for Spark and Hadoop (CCA-175)

深圳 12月06-09日

C1oudera Administrator Training for Apache Hadoop (CCA131)

深圳 12月20-23日

Cloudera Developer Training for Spark and Hadoop (CCA-175)

北京 12月13-16日

Cloudera Administrator Training for Apache Hadoop (CCA131)

上海 12月27-30日

Cloudera Administrator Training. for Apache Hadoop (CCA131)

联系方式

咨询热线: 江老师 13828892967

点此咨询

立即报名

 资源下载
  • 售价 :0.00(积分)
  • 会员价 :0.00(积分) 查看实际享受优惠
  • PPV课

    我们用数据说话,传播正能量,执着探索大数据价值!

    You may also like...

    发表评论

    切换注册

    登录

    忘记密码 ?

    切换登录

    注册