Category: Spark实战

spark 是怎么跑在 yarn 上面的

spark on yarn 根据你启动的时候, 根据你 master 和 mode 参数, 来使用 客户端模式 还是 集群模式

客户端模式 yarn-client
集群模式 yarn-cluster

深入理解Spark Streaming执行模型

Spark Streaming是Spark中最常用的组件之一,将会有越来越多的有流处理需求的用户踏上Spark的使用之路。本文描述了Spark Streaming的架构并解释如何去提供上述优势,以及一些目前进行的令大家感兴趣的相关后续工作。

Apache Spark技术实战之9 — 日志级别修改

在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TRACE那么简单。

Apache Spark技术实战之5 — SparkR的安装及使用

在Sparkrelease计划中,在Spark 1.3中有将SparkR纳入到发行版的可能。本文就提前展示一下如何安装及使用SparkR.

SparkR的出现解决了R语言中无法级联扩展的难题,同时也极大的丰富了Spark在机器学习方面能够使用的Lib库。SparkR和Spark MLLIB将共同构建出Spark在机器学习方面的优势地位。

Apache Spark技术实战之1 — KafkaWordCount

Spark应用开发实践性非常强,很多时候可能都会将时间花费在环境的搭建和运行上,如果有一个比较好的指导将会大大的缩短应用开发流程。Spark Streaming中涉及到和许多第三方程序的整合,源码中的例子如何真正跑起来,文档不是很多也不详细。

Spark入门实战系列–3.Spark编程模型(上)–概念及SparkShell实战

1 Spark编程模型

1.1 术语定义

应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;
驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program;

Spark入门实战系列–1.Spark及其生态圈简介

这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。

切换注册

登录

忘记密码 ?

切换登录

注册