一、概述

关于Spark是什么、为什么学习Spark等等，在这就不说了，直接看这个：http://spark.apache.org，

我就直接说一下Spark的一些优势：

1、快

与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。

2、易用

Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。

3、通用

Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本。

4、兼容性

Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛，使得所有人都可以非常容易地部署和使用Spark。此外，Spark还提供了在EC2上部署Standalone的Spark集群的工具。
还有总结一句话：Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。

二、集群安装

我们在自己的机器上就不要起那么多虚拟机了，就起3台虚拟机就够了（一台Master，两台Worker），当然了你的Linux机器需要先安装JDK和hdfs，我们要安装Spark-1.6.1最好使用JDK7以上。

先简单介绍一下Spark集群的一些概念：

Spark集群包括Master和Worker，Master只有一个，Worker可以有多个，Master和Worker之间通过RPC保持联系；

Master负责管理元数据，Worker负责运行Task，其中细节以后再详细介绍；

还有一个Driver，它就相当于Spark集群的客户端，主要负责向Spark集群提交任务，其中细节以后再详细介绍。

1、下载安装包

就不用写了，我们下载Spark-1.6.1

2、上传安装包并解压

解压安装包到指定位置：(这里我使用的是spark用户，把spark-1.6.1-bin-hadoop2.6.tgz 解压到了我的宿主目录下了)

tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz –C /home/spark

3、配置Spark

进入Spark安装目录下的conf目录，重命名并修改spark-env.sh.template文件：

cd conf/

mv spark-env.sh.template spark-env.sh

在spark-env.sh添加以下配置：

vi spark-env.sh

export JAVA_HOME=[你的JDK_HOME目录]

export SPARK_MASTER_IP=[Spark集群的Master所在节点的地址：Master]

export SPARK_MASTER_PORT=7077[这个端口号是Driver连接Spark集群的端口]

重命名并修改slaves.template文件：

mv slaves.template slaves

在该文件中添加子节点所在的位置（即Worker节点）：

vi slaves

[第一个Worker节点的地址：Worker1]

[第二个Worker节点的地址：Worker2]

将配置好的Spark拷贝到其他节点上：

scp -r spark-1.6.1-bin-hadoop2.6/ worker1:/home/spark

scp -r spark-1.6.1-bin-hadoop2.6/ worker2:/home/spark

4、安装完毕测试启动

到此Spark集群安装完毕，需要启动测试一下，目前是1个Master，2个Work，在Master上启动Spark集群：（注意：不要在Worker上启动start-all，具体细节以后再介绍）

/home/spark/spark-1.5.2-bin-hadoop2.6/sbin/start-all.sh

（start-all.sh 就会启动Master和所有Worker，就不需要去每个Worker上启动了）

启动后在每台机器上执行jps命令，主节点上有Master进程，其他子节点上有Worker进程，登录Spark管理界面查看集群状态（登录地址必须是Master节点，因为Spark WebUI在Master节点上）：

http://【Master的地址】:8080/

到此为止Spark集群安装完毕

但是有一个很大的问题，那就是Master节点存在单点故障，要解决此问题，就要借助zookeeper，并且启动至少两个Master节点来实现高可靠，这个也比较简单，等待以后再介绍。当然了Worker也会挂掉，但是Worker的死活是由Master监听的，Master和Worker之间一直会有心跳，一旦Worker挂掉Master感知到以后就会把挂掉的Worker上运行的任务重新分配到其他的Worker上，具体细节待以后再介绍。

巴特西

Spark系列—01 Spark集群的安装

一、概述

1、快

2、易用

3、通用

4、兼容性

二、集群安装

1、下载安装包

2、上传安装包并解压

3、配置Spark

4、安装完毕测试启动

到此为止Spark集群安装完毕

最新文章

热门文章

巴特西

Spark系列—01 Spark集群的安装

一、概述

1、快

2、易用

3、通用

4、兼容性

二、集群安装

1、下载安装包

2、上传安装包并解压

3、配置Spark

4、安装完毕 测试启动

到此为止Spark集群安装完毕

最新文章

热门文章

4、安装完毕测试启动