Category: Hadoop

Cloudera Hadoop认证培训课程 | 4季度培训计划

Cloudera教育培训是全球领先的Apache Hadoop培训和认证厂商。我们所开发的全面解决方案可以针对Hadoop管理员、开发人员、数据分析师、数据科学家及任何大数据专业人士(利用企业数据中心(EDH)建立聚合应用)提供特定角色的培训。我们的培训内容深度覆盖整个生态系统的项目包括Spark、Solr、HBase、Pig、Hive、Impala、Hue、Sqoop及Oozie等工具。Cloudera培训教材源自各行业客户现实经验中的最佳实践,行业覆盖了金融服务业、医疗保健业、数字媒体业、零售业、制造业和电信业。

Kafka 入门指南

 本文是 Kafka 的入门指南。Kafka(http://kafka.apache.org/) 非常强大,应用场景也很多,性能很好。

在大数据里:Hadoop的关键性作用

于数据分析的开源Hadoop架构的巨大增长是由其结构化和非结构化数据量的增长所驱动的,并且很多权威组织也预测,未来Hadoop架构还将继续增长,并需要复杂的可访问工具来从数据中提取业务和市场信息。

Hadoop学习资源集合

为了帮助大家进一步了解Hadoop,云栖社区组织翻译了GitHub Awesome Hadoop 资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书籍、网站等资源。

Hadoop没有消亡,它是大数据的未来

有人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,为了反驳此前一篇文章《为什么 Hadoop 正在消亡?(Why Hadoop is Failing)》的观点,他在自己的博客上写了一篇论述自己看法的文章,他认为达尔文式的开源生态系统正在确保 Hadoop 成为稳固和成熟的技术平台。

Hadoop环境中管理大数据存储八大技巧

在现如今,随着IT互联网信息技术的飞速发展和进步。目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧。

Hadoop学习资源集合

Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。为了云栖社区组织翻译了GitHub Awesome Hadoop 资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书

阿里封神谈hadoop学习之路

在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。

Hadoop常见面试问题

你准备好面试了吗?呀,需要Hadoop的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。

深刻理解HDFS工作机制

本篇博文首先对HDFS的重要特性和使用场景做一个简要说明,之后对HDFS的数据读写、元数据管理以及NameNode、SecondaryNamenode的工作机制进行深入分析。过程中也会对一些配置参数做一个说明。

HADOOP之3节点集群

apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译,本文讨论了3节点的hadoop该如何创建

hadoop使用(四)

做一个网络爬虫的程序吧,根据客户的需求,要求把相关的内容爬取到本地

最终选择的是apache nutch,到目前为止最新的版本是1.3

hadoop使用(三)

Hadoop与Google一样,都是小孩命名的,是一个虚构的名字,没有特别的含义。从计算机专业的角度看,Hadoop是一个分布式系统基础架构,由 Apache基金会开发。Hadoop的主要目标是对分布式环境下的“大数据”以一种可靠、高效、可伸缩的方式处理。

hadoop使用(二)

硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的 部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。

hadoop使用(一)

Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成。

其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上。

HIVE常用函数

hive常用函数较多,这里演示了部分hive的字符串处理函数的使用。

Hadoop 要被淘汰了吗

我经常会从客户或者网上听到这个问题,尤其是最近几年。那么关于spark哪些被我们神化了,哪些又是真实的,以及它在“大数据”的生态系统中又是怎样的?

Hadoop、Spark、HBase与Redis的适用性讨论

想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop、Spark、HBase及Redis等几个主流大数据技术的使用场景.

专门为面试而学的大数据

该文总结了一些面试常见的hadoop知识,包括1. hdfs原理,以及各个模块的职责2. map reduce 的工作原理3. hadoop1 与 hadoop2 的区别4. zookeeper5. hbase

Ambari——大数据平台的搭建利器

虽然大数据越来越流行,但其学习的门槛却一直阻碍着很多的分布式应用初学者或者大数据的业务应用开发者。多个产品之间的不兼容问题,快速集成和维护也显得比较困难。不管是 Hadoop V1 或者 V2 的安装,又或者 Spark/YARN 等的集成,都不是几行简单的命令可以完成的,而是需要手工修改很多的集群配置,这进一步增加了业务开发者的学习和使用难度。有了 Ambari,这些都不再是难题。

hadoop经典学习资料合集

HADOOP,告别凌乱,节省读者查阅时间,这里将一些有系统性的文章进行编排。

利用 MapReduce分析明星微博数据实战

互联网时代的到来,使得名人的形象变得更加鲜活,也拉近了明星和粉丝之间的距离。歌星、影星、体育明星、作家等名人通过互联网能够轻易实现和粉丝的互动,赚钱也变得前所未有的简单。同时,互联网的飞速发展本身也造就了一批互联网明星,这些人借助新的手段,最大程度发挥了粉丝经济的能量和作用,在互联网时代赚得盆满钵满。

切换注册

登录

忘记密码 ?

切换登录

注册