+关注我们
您的位置:首页 > Hadoop大数据工程师具体课程详情-CDA知名团队讲师

Hadoop大数据工程师具体课程详情-CDA知名团队讲师
发表时间:2015-04-03      浏览人数:382      点赞人数:0     

(一)基础理论部分




1.数据分析基础

(1)数据分析过程概述

(2)概率论与数理统计介绍

(3)抽样估计与假设检验

(4)方差分析与回归分析


2.java基础

(1)JDK的安装配置,Java基本知识、数据类型以及基本语法

(2)Eclipse的编程入门

(3)面向对象的思想基本介绍,类、对象、接口、封装、继承

(4)Java的集合类——数组、Set、List、Map、Queue

(5)异常处理——CheckedException、Unchecked Exception,如何通过异常信息捕获错误

(6)Java的垃圾回收机制以及多线程简介

(7)Java的文件操作、包的概念及如何打包

(8)数据库基础知识及SQL语法

(9)基于servlet技术的B/S应用开发及代码实现案例详解


3.linux基础

(1)linux的介绍

(2)Linux入门:选择合适的Linux发行版、如何安装Linux

(3)linux操作系统命令及使用命令编辑文件

(4)Linux下SSH命令使用方法详解



(二)hadoop理论课程




1.hadoop安装配置及运行机制解析

该内容是大数据分析的环境搭建课程,偏重于上机操作,主要讲述基于unbuntu的hadoop的单机模式和伪分布模式安装和配置过程,以及在linux集群上安装和配置hadoop集群的过程。对于不熟悉的unbuntu等 linux操作系统的学员,课程中会通俗易懂地引导他们了解常用的命令,实现零基础的进阶。通过讲师手把手、面对面的交流,教会学员自己搭建一个真实的基于hadoop的大数据分析环境,并在三种环境下运行hadoop自带的小程序,引导学员了解数据分析的基本思想。主要内容包括:

(1)介绍分布式系统设计的基本思想

(2)介绍Hadoop 概念、版本、历史

(3)详细讲解Hadoop 单机、伪分布及集群模式的安装配置过程和内容

(4)使用蒙特卡罗法求π值的案例分析比较hadoop三种模式的运行效率,并剖析数据分析的基本思想

(5)介绍如何通过命令行和浏览器观察hadoop的运行状态

(6)介绍hadoop的安全模式

(7)介绍如何查看hadoop 运行的日志信息


2.Hadoop分布式文件系统深入剖析

对hadoop架构的分布式文件系统HADFS进行深入的分析,hdfs是hadoop架构的基础,它是hadoop的核心内容之一。主要的内容包括:

(1)介绍google的GoogleGFS 文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。

(2)HDFS的概念及设计

(3)Hdfs体系结构及运行机制详述

(4)NameNode、DataNode、SecondaryNameNode的作用及运行机制

(5)block 的划分原理、存储方式和配置文件

(6)hdfs的备份机制和文件管理机制

(7)HDFS文件系统的常用命令

(8)使用命令及JAVA语句操作hdfs中的文件


3.MapReduce理论及实战

(1)介绍google的MapReduce编程模型

(2)hadoop中的MapReduce工作原理

(3)通过演示单词计数程序,详细讲述mapreduce运行过程中类的调用过程

(4)详细讲述如何覆盖 Mapper 功能、如何覆盖 Reducer 功能。

(5)MapReducejob的生命周期中job提交、task分发和task执行

(6)MapReduce中block 的调度及作业分配机制

(7)基于MapReduce模型的wordcount运行详解

(8)基于MapReduce模型的三个初级案例:数据去重、数据排序和求平均成绩

(9) 基于MapReduce模型的高级案例,详细介绍如何在eclipse中编写MapReduce程序,打包成可在hadoop上运行的jar,并在集群上运行


4.hbase理论及实战

(1)Hbase简介,包括HBase的基础概念 、数据模型、存储模型

(2)hbase的伪分布和集群的安装及配置

(3)一个例子讲解hbase shell常用的操作命令


5.hadoop生态环境介绍

(1)ZooKeeper简介,包括ZooKeeper的安装、运行及示例

(2)Pig简介,包括Pig的安装、运行及示例

(3)Hive简介,包括Hive的安装、运行及示例

(4)sqoop简介,包括Sqoop介绍、命令、原理及流程



(三)大数据分析思想、工具及实战案例




1.大数据分析思想介绍

(1)大数据的时代背景

(2)大数据分析的思维转变

(3)几种典型的大数据架构分析

(4)大数据时代的数据分析思想的变革


2.Mahout,大数据分析的利器

Mahout 是 Apache SoftwareFoundation(ASF)旗下的一个开源项目,它通过和hadoop配合,实现在推荐、聚类和分类等领域中的大数据分析。

(1)Mahout的下载、安装与部署

(2)Mahout之分类算法:logstic算法(SGD)与朴素贝叶斯算法(new bayes)详解

(3)使用UCI经典数据集--20Newsgroups数据集进行朴素贝叶斯算法大数据分析之分类实战演练

(4)Mahout之聚类算法:Kmeans算法与canopy算法详解

(5)使用UCI经典数据集--质量管理数据集进行canopy算法和Kmeans算法的大数据分析之聚类实战演练

(6)Mahout之主题推荐算法:基于物品或用户的推荐算法

(7)使用基于物品的推荐算法实现基于大数据分析的电影推荐系统


3.RHadoopR语言从小数据分析到大数据分析的化丽转身

(1)R语言简介

(2)安装并运行RHadoop

(3)RHadoop的逻辑结构

(4)Rhadoop实战案例—wordcout



4.三个真实的大数据分析案例




1)人大经济论坛日志分析,介绍日志分析的相关知识,以及人大经济论坛现在的日志管理现状,设计并实现适合人大经济论坛的基于hadoop架构的大数据日志分析系统,手动编写日志分析MapReduce程序,并在集群环境下运行自已的jar文件,实现从零起步到hadoop架构,直到实际的大数据分析真实案例的飞跃。


2)基于旅游点评网站的文本挖掘,介绍文本挖掘的相关知识,使用网页爬虫抓取旅游点评网站的实际数据,实现数据的清洗和预处理,制定定时更新机制,并尝试使用手动编程实现MapReduce程序,在hdfs上运行和处理采集的数据,真正参与基于实际项目的大数据分析过程。


3)基于Mahout的人大经济论坛主题推荐介绍推荐系统和汉字主题推荐涉及的文本挖掘等相关知识,以及人大经济论坛主题推荐的项目背景,项目的需求分析以及基于hadoop+Mahout算法模型和系统架构设计解析,利用Mahout提供的主题推荐算法解决人大经济论坛的主题推荐。


0人赞过

课程评价

资料修改成功!
确定

小V: 点击这里给我发消息

Jedis:点击这里给我发消息

关闭