Category: Spark

Spark 贝叶斯分类算法

  朴素贝叶斯分类是一种十分简单的分类算法,其思想基础是:对于给定的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项就属于哪个类别。

大数据系列之并行计算引擎Spark介绍

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark:超越Hadoop MapReduce

和 Hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。

Spark的性能调优

下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。

Spark(1.2.0)Streaming 集成 Kafka 总结

最近在做利用Spark streaming和Kafka进行数据分析的研究, 整理一些相应的开发文档, 做了一些代码实践。 本文特意将这些资料记录下来。

MLlib1.6指南笔记

•spark.mllib RDD之上的原始API •spark.ml ML管道结构 DataFrames之上的高级API

Spark Standalone架构分析

Apache Spark是一个开源的通用集群计算系统,它提供了High-level编程API,支持Scala、Java和Python三种编程语言。Spark内核使用Scala语言编写,通过基于Scala的函数式编程特性,在不同的计算层面进行抽象,代码设计非常优秀。

事实上,Spark是一项非常值得学习的技术

摘要:2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。 我强烈建议任何希望学习Spark的开发者都寻找一个项目入手。

Spark安装与学习

摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/

spark从入门到进阶

理论讲解与实操相结合,开发演示与现场指导相结合;以理论为基础,重点在于数据分析开发实战。

Hadoop、Spark、HBase与Redis的适用性讨论

想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop、Spark、HBase及Redis等几个主流大数据技术的使用场景.

Spark取代Hadoop?看看Hadoop之父Doug Cutting 怎么说

Doug Cutting 预言了Hadoop将不断向前发展,以及预言了围绕hadoop生态系统的产生的机遇。

Hadoop经过10年的发展,如今Hadoop生态系统非常庞大,同时一直在改进。InfoWorld 的 Andy Oliver就目前的情况,“关于Hadoop你需要知道的最重要的一件事是以后再也没有Hadoop了”—至少,不再是以前我们熟知的Hadoop了。

Hadoop VS Spark

Hadoop MapReduce会被新一代的大数据处理平台替代是技术发展的趋势,而在新一代的大数据处理平台中,Spark目前得到了最广泛的认可和支持。

2分钟读懂Hadoop和Spark的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。

Spark MLlib实现的中文文本分类–Native Bayes

文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。
本文介绍使用Spark MLlib提供的朴素贝叶斯(Native Bayes)算法,完成对中文文本的分类过程。主要包括中文分词、文本表示(TF-IDF)、模型训练、分类预测等。

Spark性能调优

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。

解读2015之Spark篇:新生态系统的形成

2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续前行。

(课程)基于Spark的机器学习经验

这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇内容影响,他接受了Spark-Shell作为数据分析的工具,简单几个命令,轻松处理几千万行数据。于是我就重新整理了下这篇文章。

雅虎开源解析HTML页面数据的Web爬取工具Anthelion

Yahoo 宣布开源解析 HTML 页面结构数据的 Web 爬取工具 Anthelion。

  Web 爬行工具是 Yahoo 很重要的核心,甚至超过了其他应用: Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr 和 Tumblr。

  上一年在上海的一次会议中,

友盟分享 | 移动大数据平台架构思想以及实践经验

著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:一木Grace
链接:http://zhuanlan.zhihu.com/umeng/20290418
来源:知乎

友盟大数据平台的架构借鉴了Lambda架构思想,数据接入层让Kafka集群承担,后面由Storm消费,存储在MongoDB里面,通过Kafka自带的Mirror功能同步,两个Kafka集群,可以分离负载;计算有离线和实时两部分,实时是Storm,离线是Hadoop,数据仓库用Hive,数据挖掘正在从Pig迁移到Spark,大量的数据通过计算之后,存储在HDFS上,最后存储在HBase里面,通过ES来提供多级索引,以弥补HBase二级索引的缺失……

Apache Spark技术实战之9 — 日志级别修改

在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TRACE那么简单。

切换注册

登录

忘记密码 ?

切换登录

注册