《数据科学与大数据技术训练营》大数据开发工程师-初级

60+课时,互动直播,三大生态系统全面深入学习,前甲骨文、安永咨询顾问,eWorthy Tech高级架构师授课!

 

课程简介

《数据科学与大数据技术训练营》参考教育部“数据科学与大数据技术”专业课程设置内容,由一批企业专家和中青年博士、博士后授课,上课方式为在线学习+线下学习(集训),学生毕业可以推荐就业,同时可考取相关职位资格证书。

“数据科学与大数据技术”本科课程系列(大数据工程师方向)

 

本期《大数据开发工程师》初级课程,采用网络教学方式,深入学习大数据主要的三大生态系统NoSQL(MongoDB)、Spark和Hadoop的历史及目前发展的现状、以及它们的技术特点,通过贯穿课程的项目进行实战锻炼,掌握平台部署、开发和调优,把握分布式计算框架及未来发展方向,助你在大数据时代获得大数据开发工程师相关职位。

课程特色

  • 60+课时,互动直播,三大生态系统(hadoop+Spark+MongoDB)全面深入学习,全栈能力培养
  • 前甲骨文、安永咨询顾问,eWorthy Tech高级架构师授课
  • 直播+视频回放+QQ答疑,上课方式自由

培养目标:

课程结束时,帮助学员实现如下目标:

1、理解MongoDB3的技术核心和管理操作,以此为基础,进而掌握NoSQLMPP架构数据库的使用和调优的思想。

a)简单使用MongoDB

b)  掌握使用ReplSet、Sharding等核心功能

c)  了解MEANSatck的web开发框架

i、M = MongoDB/Mongoose.js数据库,对 node . js来说是一个ODM。

ii、E = Express.js:一个轻量级Web应用程序框架。

iii、A = Angular.js:一个框架用于创建HTML5和JavaScript Web应用程序。

[P=Python是一门面向对象的编程语言,相对于其他语言,更加易学、易读,非常适合快速开发;合于做网站、ML、科学计算、绘制高质量的2D和3D图像等应用。]

 iv、N = Node.js服务器端JavaScript interpreter。

d)  MongoDB的应用。

2、全面掌握Hadoop2的架构原理和使用场景,并通过贯穿课程的项目进行实战

a)全面掌握Hadoop的安装和设置。

b)  熟练MapReduce程序开发。

c)深入的掌握HBase的高阶应用

d)YARN以及运行在YARN上的计算框架的原理及应用

e)并通过贯穿课程的项目进行实战锻炼,

f)理解掌握主要子项目的基本运维和方法,如Hive、Pig、ZooKeeper、Sqoop等。

3、理解什么是Spark和Spark在大数据领域的运用,以及理解主要功能。对运作机制有清晰全面的认识。全面掌握并可以独立规划及部署和使用Spark的4大功能。

a)Spark SQL数据存取

b)  Spark Streaming流式计算

c)Spark MLlib机器学习

d)Spark Graphx图计算

4、多生态系统的基础以及架构的目的和方法。

 

课程对象

  • 为就业者:学职业技能,从根本上解决毕业就等于失业的困顿。
  • 为转行者:护航上路,大数据职业道路越走越宽广。
  • 为创业者:提供金刚钻,不愁瓷器活。
  • 为加薪者:用技术实力说话加薪、跳巢不再遥遥无期。
  • 为提升者:跟上前沿技术,全面提升自我,为公司创造价值。

 

学员基础:

  1. 了解面向对象编程;
  2. 了解Linux的基本使用;
  3. 了解关联数据库
  4. 了解一种(Java、Python、Scala、C++。。。)语法

课前准备

本套课程主要是在Linux(Ubuntu 16.04)系统下实现的。为了让同学们尽快熟练掌握和应用多种三系统技术架构和数据库,每课将有基于Linux操作系统平台下练习和项目开发。所以开课之前,每位同学必须准备和完成以下功课:

  • (手提)电脑一台至少有以下的配备。

Recommended system requirements:

2 GHz dual core processor or better

8 GB system memory (16)

100 GB of free hard drive space

Either a DVD drive or a USB port for the installer media

Internet access

  • 安装虚拟机VMWAREplayer。(Virtual Box也行)
  • 安装Ubuntu 16.04Linux操作系统
  • 设置Linux桌面系统,以及文件和目录管理。
  • Java开发环境的搭建和eclipse的安装。
  • 用户登陆,用户注册。
  • 设置备份系统。

课程表

 

大数据开发工程师 初级

课程 课时 上课时间 报名
1、大数据生态系统介绍 1 8月28日(免费试听)  
2、MongoDB分布式数据库开发入门到精通 16 9月2日
3、全面深入了解 Hadoop大数据平台 15 9月30日
4、深入浅出Spark系统及应用 28 10月25日

 

讲师简介

Don Chen (陈东)

毕业于纽约城市学院计算机专业研究生。曾在甲骨文(Oracle)、安永(Ernst & Young)的数据中心、咨询和开发的部门任职。目前服务于eWorthy Tech, 负责数据架构工作(Data Architect)。长期掌控IT运作和管理,负责大数据相关的工作。在多个项目中作为数据架构师,参与研究过多个AI大数据的项目。

 

课程大纲

课程一、大数据生态系统介绍(1课时)免费试听

Day1 2017大数据三大系统课程简介
1课时 1 NoSQL(MongoDB)和MEANStack介绍
2 Hadoop和Spark生态系统介绍

 

课程二、MongoDB分布式数据库开发入门到精通(16课时)

课程简介

MongoDB的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等等。本课程全面深入地介绍了MongoDB数据库,包括架构特性、部署、管理、开发和调优等,由浅入深,理论结合实战,让同学全面彻底掌握这把大数据利剑。

课程大纲

1课时 1 介绍MongoDB架构,

Mongo DB成为最知名的NoSQL

1课时 2 安装MongoDB,配置环境
1课时 3 MongoDB Shell使用
4 a)         Mongo DB的基本管理

b)         备份恢复

c)         数据导入和导出

1课时 5 Mongo DB中的文档、集合和数据库
6 库文件存储方式和命令使用规则
7 Mongo DB对文档的操作

1. 增加、删除、修改文档

2. 批量修改

3. 修改器的使用

1课时 8 Mongo DB查询操作

1. $in、$or、$ne、$lt、$gt

2. 正则表达式查询、数组查询、内嵌文档查询

3. 游标操作、分页查询及代码示例、游标内幕

1课时 9 MongoDB的索引和聚合统计
1. MongoDB索引的原理
2. MongoDB索引的管理
3. 索引查询分析工具
4. 使用强制索引5. Mongo DB的聚合统计实战
1课时 10 MapReduce基础

MapReduce编程

MapReduce作业执行和故障诊断

2课时 11 深入MongoDB的ReplSet复制功能
1. MongoDB主从复制的建立
2. MongoDB主从复制的管理
3. MongoDB主从复制的维护
2课时 12 深入MongoDB的副本集功能
1. MongoDB副本集的建立
2. MongoDB副本集的管理
3. MongoDB副本集的维护
2课时 13 深入MongoDB的Sharding分片功能
1. 分片集群
2. 分片集群的查询与索引
3.分片键的选择
4.如何在生产环境中进行分片
1课时 14 MongoDB的性能调优
1. 性能调优的策略思考
2.由查询和索引带来的新能调优
3.内存在性能调优中的使用
4.提升磁盘的性能
5.扩展
2课时 15 ‘MENP Stack’和‘MEAN Stack’(也称为Full Stack全栈工程师)的介绍及应用方向。

多生态系统的运用。

 

课程三、全面深入了解 Hadoop大数据平台(15课时)

课程简介

大量的半结构化和非结构化信息无法管理和存储,大数据增长速度惊人,每年以几何级数速度增长,需要有专业化的解决方案应对大数据挑战。目前Hadoop 2.6采用 GreenplumHD技术管理半结构化和非结构化信息,整体TCO更低,除了进行有效存储和管理,可以通过MapReduce技术进行并行的分析和挖掘,把大量的数据存储变成有价值的数据资产。本课程深入阐述了Hadoop的架构原理,Hadoop整体技术架构,包括HBase、Hive、Pig、ZooKeeper、Sqoop等实战运用。

课程大纲

1课时 1 Hadoop的起源和体系

Hadoop思想起源:Google

Hadoop子项目家族

Hadoop的架构

2课时 2 Hadoop的安装与配置

准备和配置环境

三种运行模式

完全分布式模式安装

1课时 1 HDFS-大数据存储

HDFS概念与体系结构

HDFS的可靠性

HDFS文件操作

HDFS API

1课时 2 关于MapReduce

MapReduce编程模型

MapReduce的集群行为

MapReduce任务的优化

MapReduce工作机制

错误处理及作业调度机制

1课时 3 MapReduce应用开发

Hadoop Eclipse插件开发

数据筛选程序开发

倒排索引程序开发

1课时 4 Hadoop监控与管理

页面监控

hadoop备份

1课时 1 HBase数据库

Hbase体系结构

HBase shell

HBase API应用实例

HBase场景应用

HBase模式设计

1课时 2 Pig数据分析平台

Pig框架

Pig安装配置

Pig的使用

Pig的数据模型

常用Pig Latin操作

Pig UDF编程

Pig数据分析实战

1课时 3 ZooKeeper分布式服务框架

ZooKeeper工作原理

ZooKeeper设计目标

ZooKeeper的数据结构和组成

ZooKeeper的安装配置

ZooKeeper命令行工具

ZooKeeper API

ZooKeeper实战:Hadoop任务调度

1课时 4 YARN资源管理系统(4课时)

YARN产生背景

YARN基本设计思想

YARN基本架构

YARN工作流程

YARN通信协议

YARN容错

YARN资源调度机制

1课时 5 Storm基本概念

Storm流式计算框架

基于YARN的Storm架构

YARN-Storm部署

Storm On YARN服务

1课时 1 Hive数据仓库

Hive组件与体系架构

Hive安装配置

Hive的服务接口

HiveQL常用操作

Hive的优化

Hive UDF编程

Hive综合实战

1课时 2 Sqoop产生背景、基本

Sqoop1和Sqoop2架构及特点

Sqoop1安装配置(版本1.4.4)

Sqoop导入介绍

Sqoop导出介绍

Sqoop与Hbase结合

Sqoop作业操作

Sqoop作业安全配置

Sqoop2安装配置(版本1.99.3)

Hive+Sqoop2使用综合实战

1课时 3 Cloudera CDH和Hortonworks大数据套件介绍及使用

 

课程四:深入浅出Spark系统及应用(28课时)

课程简介

本课程主要学习Spark大数据概念、与Hadoop的区别与联系、Spark开发环境搭建、 Spark集群、Python开发语言、IDEA开发工具使用、Spark SQL数据存取、Spark Streaming流式计算、Spark MLlib机器学习、Spark Graphx图计算等内容。

课程大纲

1课时 1 Spark介绍和安装
1课时 2 Spark的架构设计

Spark生态系统剖析
Spark的架构设计剖析
RDD计算流程解析
Spark的出色容错机制

1课时 3 深入Spark内核
Spark集群
任务调度
DAGScheduler
TaskScheduler
Task内部揭秘
1课时 4 Spark的广播变量与累加器
广播变量的机制
广播变量使用最佳实践
累加器的机制
累加器使用的最佳实践
1课时 1 Spark编程模型
RDD的存储、容错机制、内部设计及数据模型
transformation
action
lineage宽依赖与窄依赖
2课时 2 编写Spark程序
程序数据的来源:File、HDFS、HBase、MongoDB、S3等
IDE环境构建
Maven
sbt.
编写并部署Spark程序的实例
2课时 3 SparkContext解析和数据加载以及存储
源码剖析SparkContext
Scala、Java、Python使用SparkContext
加载数据成为RDD
把数据物化
2课时 4 深入实战RDD
DAG
深入实战各种Scala RDD Function
Spark Java RDD Function
RDD的优化问题
1课时 1 Shark的原理和使用
Shark与Hive
安装和配置Shark
使用Shark处理数据
在Spark程序中使用Shark Queries
SharkServer
思考Shark架构
3课时 2 Spark的机器学习

LinearRegression
K-Means
Collaborative Filtering

2课时 1 Spark SQL
Parquet支持
DSL
SQL on RDD
2课时 2 Spark的图计算GraphX
Table Operators
Graph Operators
GraphX
2课时 3 Spark实时流处理
DStream
transformation
checkpoint性能优化
1课时 4 Spark程序的测试
编写可测试的Spark程序
Spark测试框架解析
Spark测试代码实战
1课时 5 Spark的优化
Logs并发内存垃圾回收序列化
安全
1课时 6 Spark on Yarn
Spark on Yarn的架构原理Spark on Yarn的最佳实践
1课时 1 JobServer
JobServer的架构设计
JobServer提供的接口
JobServer最佳实践
2课时 2 Spark项目案例实战
Spark项目的最佳架构模式
案例的介绍和架构
案例的源码实现
调优
1课时 3 介绍多生态系统的基础以及架构的目的和方法。由于大数据和开源系统的特性,经常常见的多生态系统的架构。

 

1+1+1福利

什么是1+1+1体验式学习?
在AI时代,争取的学习姿势应该是:
每半年至少参加一次live活动或体验课程
每半年至少读一本数据科学或人工智能方面的书籍
每半年至少参加一次职业或生涯规划方面的讲座

如果您报名参加我们训令营课程,我们讲为您免费提供上述1+1+1套餐服务,让您在AI时代时刻掌握职场先机!

 

报名流程

1.填写报名信息

2.缴纳预付款(详见报名表,或咨询在线客服)

3.上课前补交尾款

4.不了解请点击咨询1796318148

 

培训机构介绍

深圳市飞博远创科技有限公司位于深圳市南山区科技园,是一家专注于大数据人才职业培训的互联网公司。教学内容主要为数据分析、数据挖掘、数据可视化、Hadoop、Spark、SAS、SPSS、R语言、Python相关课程和认证培训;培训教师来自国内知名高校教师以及企业资深IT专家,技术功底深厚,项目和培训经验丰富。 我们服务过的客户包括招商银行深圳分行、交通银行深圳分行、上海晟碟(Sandisk)、广州流行美、深圳前海达飞金融、就医160、贵州中移通信技术工程有限公司、广东省省情调研中心、太原科技大学等知名企业和学校。

公司旗下PPV课是国内领先的大数据学习社区,覆盖20万专业用户,拥有国内目前最全的大数据网络课程和近20人的专业教师队伍。

原创文章,作者:Eileen,如若转载,请注明出处:http://www.ppvke.com/Blog/archives/46523

联系我们

在线咨询:点击这里给我发消息

工作时间:周一至周六,9:30-19:30,节假日休息
热线电话:0755-32843501

QR code