前提:安装好jdk1.7,hadoop

安装步骤:

1、安装scala

下载地址:http://www.scala-lang.org/download/

配置环境变量:

export SCALA_HOME=/..../scala

export PATH=.:$SCALA_HOME/bin   ....

验证:scala -version

2、安装spark

使用自己编译过的对应自己hadoop的spark

配置环境变量:

export SPARK_HOME=/.../spark

export PATH=.:$SPARK_HOME/bin   ....

修改spark配置文件:

1)$SPARK_HOME/conf/spark-env.sh

export SPARK_MASTER_IP=hadoop000
export SPARK_WORKER_CORES=1     #WorkNode分出几核给spark使用
export SPARK_WORKER_INSTANCES=1  #WorkNode使用几个spark实例,一般一个就行了
export SPARK_WORKER_MEMORY=1G  #WorkNode分出多少内存给spark使用
export SPARK_WORKER_PORT=8888     #指定spark运行时的端口号

2)$SPARK_HOME/conf/slave.sh

配置worknode节点hostname,一行配置一个

3)$SPARK_HOME/conf/spark-defaults.conf    (可选配置)

参数配置参见:http://spark.apache.org/docs/latest/configuration.html

spark.master spark://hadoop000:7077
spark.local.dir /home/spark/spark_shuffle/ #配置spark shuffle数据存放路径
spark.executor.memory 1g

3、启动spark

$SPARK_HOME下的sbin和bin说明:
sbin:存放的是启动和停止spark集群等的命令;
bin:存放的是应用程序(spark-shell)启动和停止等的命令。

启动spark集群(sbin目录下):start-all.sh

启动后浏览器访问:http://hadoop000:8080/

注:hadoop000为hostname,配置的属性可以在4040端口查看到,形如:http://hadoop000:4040/environment/

启动spark-shell(bin目录下):

1)单机启动方式:spark-shell

2)集群启动方式:

spark-shell --master spark://hadoop000:7077

默认情况下Application的Memory是512M,申请所有的CPU资源;

指定executor的memory和cpu core数:spark-shell --master spark://hadoop000:7077 --executor-memory 2g --total-executor-cores 1

注意:executor-memory是每个executor占用的,而executor-cores是所有executor一共占用

具体参数配置的来源:SparkSubmit.scala中的options属性

为了启动方便起见,可以将master配置到spark-defaults.conf中

spark.master spark://hadoop000:7077

再启动spark-shell时,只需要: spark-shell

如果要指定参数,则使用:spark-shell --executor-memory 2g --total-executor-cores 1 

详细信息参见官方文档:http://spark.apache.org/docs/latest/spark-standalone.html#installing-spark-standalone-to-a-cluster

 

最新文章

  1. centos如何卸载软件
  2. 05传智_jbpm与OA项目_部门模块中增加部门的jsp页面增加一个在线编辑器功能
  3. STAR-H1208M集线器不支持同时挂载多个nfs
  4. ubuntu下配置安装PYQT4
  5. Linux下的GitHub安装与简单配置教程
  6. AllocateHwnd is not Thread-Safe
  7. Unity学习笔记(4):依赖注入
  8. 自定义视图(继承View)
  9. Ios 给imageview 添加手势没有反应
  10. Python之路,Day20 - 分布式监控系统开发
  11. js chart
  12. ASP.NET Cache 类
  13. [转]Maven与nexus关系
  14. 重新粗推了一下Master Theorem
  15. Error during artifact deployment. See server log for details.
  16. MPLAB X IDE V4.15 创建工程,编译,问题处理
  17. MySQL 8.0 —— 数据字典
  18. linux之在当前目录下按照文件大小进行排序的三种方法
  19. linux shell 脚本攻略学习8---md5校验,sort排序,uniq命令详解
  20. struts2,servlet和springmvc的单例多例问题

热门文章

  1. 剑指offer系列44---只出现一次 的数字
  2. php 查询出来的字段名全是小写或者大写
  3. golang的连接池例子
  4. android studio添加三方jar包
  5. 【转】SQL SERVER标量表达式的隐式转换
  6. 导航栏4种效果---原生js
  7. eclipse eayExplorer 查看代码的资源管理器打开方式
  8. SOA_环境安装系列4_Oracle SOA安装和环境搭建(案例)
  9. 用socket操作redis
  10. python (9)统计文件夹下的所有文件夹数目、统计文件夹下所有文件数目、遍历文件夹下的文件