版权声明:本文为博主原创文章。未经博主同意不得转载。

https://blog.csdn.net/u014393917/article/details/24640715

Spark on yarn执行流程源码分析

眼下的分析主要基于spark0.9.0的cdh5的版本号进行分析,

源码下载地址:https://github.com/cloudera/spark.git

下载方式:gitclone url ./spark

进入spark文件夹。执行gitcheckout
cdh5-0.9.0_5.0.0

源码编译

使用sbt编译spark

执行sbt命令须要使用http代理。不然连接不上网络。进入sbt/文件夹,使用vimsbt改动里面的内容,

在最以下java命令的第二行加入-Dhttp.proxyHost=myserver-Dhttp.proxyPort=port
\

执行例如以下命令编译spark

SPARK_HADOOP_VERSION=2.3.0-cdh5.0.0SPARK_YARN=true sbt/sbt assembly

SPARK_HADOOP_VERSION后是hadoop的版本号号,

SPARK_HADOOP_VERSION=2.2.0sbt/sbt assembly

Inaddition, if you wish to run Spark on YARN,set SPARK_YARN to true:

SPARK_HADOOP_VERSION=2.0.5-alphaSPARK_YARN=true sbt/sbt assembly

http连接代理设置:

编辑spark_home/sbt/sbt文件,在文件最后的例如以下脚本部分:

printf"Launching sbt from ${JAR}\n"

java\

-Xmx1200m-XX:MaxPermSize=350m -XX:ReservedCodeCacheSize=256m \

-jar${JAR} \

"$@"

改动为

printf"Launching sbt from ${JAR}\n"

java\

-Dhttp.proxyHost=myserver-Dhttp.proxyPort=port \

-Xmx1200m-XX:MaxPermSize=350m -XX:ReservedCodeCacheSize=256m \

-jar${JAR} \

"$@"

通过例如以下命令通过sbt对spark进行编译

SPARK_HADOOP_VERSION=2.3.0-cdh5.0.0SPARK_YARN=true sbt/sbt assembly

sbt命令请參考http://www.scala-sbt.org/release/docs/Getting-Started/Running.html#common-commands

生成tar包

在spark_home的根文件夹下,执行例如以下命令,编译spark的分布式部署tar.gz包

改动make-distribution.sh文件,

在例如以下命令后

Makedirectories

rm-rf "$DISTDIR"

mkdir-p "$DISTDIR/jars"

echo"Spark $VERSION built for Hadoop $SPARK_HADOOP_VERSION" >"$DISTDIR/RELEASE"

#Copy jars

cp$FWDIR/assembly/target/scala*/*assembly*hadoop*.jar "$DISTDIR/jars/"

加入此信息,把examples加入到tar.gz包中(測试过程能够执行此操作,把演示样例的代码一起打包起来)。

#Make directories

mkdir-p "$DISTDIR/examples"

#Copy jars

cp$FWDIR/examples/target/scala*/*examples*assembly*.jar"$DISTDIR/examples/"

./make-distribution.sh--hadoop
2.3.0-cdh5.0.0--with-yarn --tgz

命令执行完毕后,在spark_home下会生成一个tar.gz包。spark-0.9.0-hadoop_2.3.0-cdh5.0.0-bin.tar.gz

通过Yarn执行spark演示样例程序

通过export命令设置yarn的conf环境变量,假设没有配置全局的yarnconf环境变量

exportYARN_CONF_DIR=/home/hadoop/test.spark.yang/hadoop-2.0.0-cdh4.3.0/etc/hadoop

exportSPARK_JAR=<spark_home>/jars/spark-assembly-0.9.0-incubating-hadoop2.0.0-cdh4.3.0.jar

exportYARN_CONF_DIR=/home/hadoop/test.spark.yang/hadoop-2.0.0-cdh4.3.0/etc/hadoop

exportHADOOP_CONF_DIR=/home/hadoop/test.spark.yang/hadoop-2.0.0-cdh4.3.0/etc/hadoop

SPARK_JAR=/home/hadoop/test.spark.yang/spark-0.9.0-incubating/jars/spark-assembly-0.9.0-incubating-hadoop2.0.0-cdh4.3.0.jar

./bin/spark-classorg.apache.spark.deploy.yarn.Client \

--jar./examples/spark-examples-assembly-0.9.0-incubating.jar \

--classorg.apache.spark.examples.SparkTC \

--argsyarn-standalone \

--num-workers3 \

--worker-cores1 \

--master-memory512M \

--worker-memory1g

通过java程序执行sparkon yarn的启动

1.编写一个java应用程序,把core-site/hdfs-site/yarn-site的配置文件加入到project中。

2.把spark的jar加入到project中。作用于当前project的class引用,

3.在project中环境变量设置SPARK_JAR,来引用sparkjar的位置,

4.在project中环境变量设置SPARK_LOG4J_CONF,来引用sparklog4j的位置

通过SPARK_YARN_USER_ENV配置其他用户定义的环境变量值。

通过SPARK_USE_CONC_INCR_GC配置是否使用默认的GC配置。,true/false

通过SPARK_JAVA_OPTS配置spark执行时的相关JAVA_OPTS.

通过JAVA_HOME配置java_home.

5.设置一些系统属性,共spark执行时的使用,当然这些个系统属性本身也有默认的值

a.属性名称QUEUE。默认值default。作用于am启动的队列名称,也能够在client调用进传入

b.属性名称。app执行监控的间隔时间ms。

c.属性名称。上传给yarn上执行的资源的复制份数,包含sparkjar,appjar

d.属性名称或numworker传入參数的值*2取最大值。

作用于app失败的重试次数,假设重试次数超过了指定的值。表示app执行失败。

e.属性名称。

等待SparkContext初始化完毕的等待次数,

每次的等待时。让ApplicationMaster.sparkContextRef.wait=10000ms

f.属性名称,

通过此配置向RM设置am向其报告的时间间隔。

最新文章

  1. 天津政府应急系统之GIS一张图(arcgis api for flex)讲解(八)资源搜索模块
  2. [51单片机] SPI nRF24L01 无线简单程序 1
  3. Android配置----adb工具的使用
  4. 【阿里云产品公测】弹性伸缩服务ESS之试用初体验
  5. C 高级编程5 IO与文件权限
  6. 普及下Oracle hints语法
  7. Spring+SpringMVC+MyBatis+easyUI整合优化篇(三)代码测试
  8. Spring第九篇【Spring与Hibernate整合】
  9. Python 30分钟入门指南
  10. 在MFC中通过访问IP地址下载文件到本地
  11. 发现了学校教务处官网的两个BUG
  12. js中的setTimeout和setinterval 用法说明
  13. git常用命令(转载自用)
  14. Android SDK离线安装更新方法
  15. main函数是必须的吗
  16. Approx Analytic Arealight
  17. WPF圆角按钮例程
  18. Android-ProgressDialog点击对话框外部是不让其消失
  19. JMeter--使用HTTP信息头管理器
  20. 基本控件文档-UIButton属性

热门文章

  1. GULP入门(一)
  2. hive作业的优化策略
  3. 2018-10-31-C#-程序内的类数量对程序启动的影响
  4. LuoguP3690 【模板】Link Cut Tree (动态树) LCT模板
  5. Leetcode147. Insertion Sort List对链表进行插入排序
  6. Java数据结构和算法(八)--红黑树与2-3树
  7. 通过游戏学python 3.6 第一季 第二章 实例项目 猜数字游戏--核心代码--猜测次数 可复制直接使用 娱乐 可封装 函数
  8. vmware的Linux虚拟机ping不通外网的解决办法
  9. HTTP_REFERER的用法及伪造
  10. 深入浅析python中的多进程、多线程、协程