Category: 云计算

Cloudera Hadoop认证培训课程 | 4季度培训计划

Cloudera教育培训是全球领先的Apache Hadoop培训和认证厂商。我们所开发的全面解决方案可以针对Hadoop管理员、开发人员、数据分析师、数据科学家及任何大数据专业人士(利用企业数据中心(EDH)建立聚合应用)提供特定角色的培训。我们的培训内容深度覆盖整个生态系统的项目包括Spark、Solr、HBase、Pig、Hive、Impala、Hue、Sqoop及Oozie等工具。Cloudera培训教材源自各行业客户现实经验中的最佳实践,行业覆盖了金融服务业、医疗保健业、数字媒体业、零售业、制造业和电信业。

Kafka 入门指南

 本文是 Kafka 的入门指南。Kafka(http://kafka.apache.org/) 非常强大,应用场景也很多,性能很好。

Spark 贝叶斯分类算法

  朴素贝叶斯分类是一种十分简单的分类算法,其思想基础是:对于给定的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项就属于哪个类别。

在大数据里:Hadoop的关键性作用

于数据分析的开源Hadoop架构的巨大增长是由其结构化和非结构化数据量的增长所驱动的,并且很多权威组织也预测,未来Hadoop架构还将继续增长,并需要复杂的可访问工具来从数据中提取业务和市场信息。

Hadoop学习资源集合

为了帮助大家进一步了解Hadoop,云栖社区组织翻译了GitHub Awesome Hadoop 资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书籍、网站等资源。

Hadoop没有消亡,它是大数据的未来

有人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,为了反驳此前一篇文章《为什么 Hadoop 正在消亡?(Why Hadoop is Failing)》的观点,他在自己的博客上写了一篇论述自己看法的文章,他认为达尔文式的开源生态系统正在确保 Hadoop 成为稳固和成熟的技术平台。

Hadoop环境中管理大数据存储八大技巧

在现如今,随着IT互联网信息技术的飞速发展和进步。目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧。

Hadoop学习资源集合

Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。为了云栖社区组织翻译了GitHub Awesome Hadoop 资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书

大数据系列之并行计算引擎Spark介绍

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark:超越Hadoop MapReduce

和 Hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。

阿里封神谈hadoop学习之路

在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。

Spark的性能调优

下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。

Spark(1.2.0)Streaming 集成 Kafka 总结

最近在做利用Spark streaming和Kafka进行数据分析的研究, 整理一些相应的开发文档, 做了一些代码实践。 本文特意将这些资料记录下来。

MLlib1.6指南笔记

•spark.mllib RDD之上的原始API •spark.ml ML管道结构 DataFrames之上的高级API

Hadoop常见面试问题

你准备好面试了吗?呀,需要Hadoop的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。

Spark Standalone架构分析

Apache Spark是一个开源的通用集群计算系统,它提供了High-level编程API,支持Scala、Java和Python三种编程语言。Spark内核使用Scala语言编写,通过基于Scala的函数式编程特性,在不同的计算层面进行抽象,代码设计非常优秀。

深刻理解HDFS工作机制

本篇博文首先对HDFS的重要特性和使用场景做一个简要说明,之后对HDFS的数据读写、元数据管理以及NameNode、SecondaryNamenode的工作机制进行深入分析。过程中也会对一些配置参数做一个说明。

如何在阿里云上构建高可用应用

可用是我们每个项目的需求,一个经常故障的项目,会让我们觉得不靠谱而选择放弃,从而导致项目的失败。
今天,我们来聊一聊,如何让你自己的业务能够更加稳固的运行

HADOOP之3节点集群

apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译,本文讨论了3节点的hadoop该如何创建

事实上,Spark是一项非常值得学习的技术

摘要:2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。 我强烈建议任何希望学习Spark的开发者都寻找一个项目入手。

切换注册

登录

忘记密码 ?

切换登录

注册