3. Yarn-Cluster

Yarn是一种统一资源管理机制,可以在上面运行多种计算框架。Spark on Yarn模式分为两种:Yarn-Cluster和Yarn-Client,前者Driver运行在Worker节点,后者Driver运行在Client节点上。采用Spark on Yarn模式,只需要在一个节点部署Spark就行了,因此部署比较简单。

先介绍一下Yarn-Cluster。

首先把spark-assembly-1.6.0-hadoop2.6.0.jar上传到HDFS。

由于Yarn在安装Hadoop的时候已经配置了,所以就直接对Spark进行配置了。spark-env.sh在部署Standalone模式是已经设置了,所以也不需要在设置。这里只需要在Master节点设置spark-defaults.conf,该文件在${HADOOP_HOME}/conf目录下,增加以下设置:

spark.master                         spark://master:7077
spark.yarn.jar      hdfs://master:9000/spark/jars/spark-assembly-1.6.0-hadoop2.6.0.jar
spark.eventLog.enabled true
spark.eventLog.dir      hdfs://master:9000/spark/logs
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.driver.memory 1g
spark.yarn.scheduler.heartbeat.intervals-ms 5000
spark.yarn.preserve.staging.files false
spark.yarn.max.executor.failures 6
spark.driver.extraJavaOptions -Dhdp.version=2.6.5
spark.yarn.am.extraJavaOptions -Dhdp.version=2.6.5

Spark on Yarn不需要启动Spark的Master或者Slave,只需要启动Hadoop的DFS和Yarn就行了,也就是只需要运行Hadoop的start-all.sh就行了,因此运行也相对简单,并且性能还比较好。

启动Hadoop的DFS和Yarn以后,运行:

其中的 --master yarn-cluster表明以Yarn-Cluster模式运行。运行结束以后可以Master:8080看到这个Application:

点进Logs可以看见运行结果:

3. Yarn-Client

Yarn-Client的部署和Yarn-Cluster是一样的,区别就在于Yarn-Cluster的Driver运行在Worker节点,而Yarn-Client的Driver运行在Client节点。

输入命令:

其中--master yarn-client表明以Yarn-Client模式运行。

最新文章

  1. Timing Attack 周边感应sql
  2. 公共代码参考(Volley)
  3. 理解 OpenStack 高可用(HA) (6): MySQL HA
  4. angular $http配置属性
  5. 提高Visual Studio开发性能的几款插件
  6. Windows环境下Oracle数据库的自动备份脚本
  7. UISearchBar改变搜索框的高度
  8. Hadoop_10_shuffle02_详解Shuffle过程【来源网络】推荐更为详细
  9. MVVM模式的一个小例子
  10. 【OpenGL】画立方体
  11. Android应用开发性能优化完全分析
  12. 用Linux命令行实现删除和复制指定类型的文件
  13. Chapter 5 Blood Type——22
  14. Java之所有输入流输出流的分类
  15. 201772020113李清华《面向对象程序设计(java)》第八周学习总结
  16. JPanel JScrollPanel
  17. for循环将字典添加到列表中出现覆盖前面数据的问题
  18. 2018年11月10日 input,print,pass 用法,条件语句+字符串
  19. MyEclipse和Eclipse
  20. 奇怪的问题,疑惑?不用的 User agent 居然gzip不一样?

热门文章

  1. 【nginx】配置Nginx实现负载均衡
  2. weblogic 12c集群性能测试(与guava13以上版本兼容性问题仍然存在)
  3. Mysql数据库自带四个数据库的解析
  4. 《嵌入式Linux开发实用教程》
  5. PHP Curl transfer closed with outstanding read data remaining
  6. django的数据库操作
  7. 描述ARP协议的工作原理,怎么实施ARP攻击和防御ARP攻击
  8. iOS: 获取UITableViewCell上添加的子控件对应的cell
  9. Team Viewer 远程链接一直显示-"正在初始化显示参数"
  10. sda, sdb, sdc, sda1, sda2在Linux中都代表什么