standalone
hdfs:namenode是主节点进程,datanode是从节点进程
yarn:resourcemanager是主节点进程,nodemanager是从节点进程
hdfs和yarn是hadoop里面的节点进程信息

在spark里面有
master:主节点进程
worker:从节点进程

使用standalone模式:
将$SPARK_HOME/conf/目录下的slaves.template修改为slaves后添加主机名,如果有5个台机器就应该进行如下slaves的配置hadoop001~hadoop005
如果是多台机器,那么每台机器都在相同的路径下部署spark
将$SPARK_HOME/conf/目录下的spark-env.sh.template修改为spark-env.sh并添加JAVA_HOME的环境变量,否则会报错

配置完成后启动
在$SPARK_HOME/sbin/目录下执行./start-all.sh,通过jps检测会有Master和Worker两个节点进程,就说明standalone模式安装成功。
web界面访问:
MasterWebUI:http://hadoop000:8080
spark提交作业时指定的端口:spark://hadoop000:7077

提交作业到standalone模式
$SPARK_HOME/bin/执行./pyspark --master spark://hadoop000:7077

standalone模式spark-submit运行
$SPARK_HOME/bin/执行./spark-submit --master spark://hadoop000:7077 --name spark-standalone /home/hadoop/script/spark0402.py hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output
如果使用standalone模式,而且节点个数大于1的时候,如果使用本地文件测试,必须要保证每个节点上都有本地测试文件,可以直接用hdfs进行测试。
例如:hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output

yarn运行模式
spark on yarn(spark作为客户端,spark需要做的事情是提交作业到yarn上执行)
yarn和standalone的区别:
yarn模式:只需要一个节点,然后提交作业即可,不需要spark集群的(不需要启动Maser和Worker)
standalone模式:在spark集群上的每个节点都需要部署spark,然后需要启动spark集群(需要Maser和Worker进程节点)
启动yarn:
$SPARK_HOME/bin/执行./spark-submit --master yarn --name spark-yarn /home/hadoop/script/spark0402.py hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output
运行yarn模式前提是需要指定hadoop_conf_dir或者yarn_conf_dir的配置文件目录
将$HADOOP_HOME/etc/hadoop目录,添加到$SPARK_HOME/conf/目录下的spark-env.sh文件中。例如:HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

yarn支持client和cluster模式:driver运行在哪里
client:提交作业的进程是不能停止的否则作业就挂了
cluster:提交完作业,那么提交作业端就可以断开,因为driver是运行在am里面的
pyspark/spark-shell:交互式运行程序,只能运行在client里面

如何查看已经运行完的yarn的日志信息:yarn logs -applicationId <applicationId>
日志聚合参看:10小时入门Hadoop大数据中的5-12 JobHistory使用

最新文章

  1. Java 快速排序两种实现
  2. javascript 核心语言笔记- 2 语法结构
  3. JQuery------Select标签的各种使用方法
  4. Qt修改xml文件
  5. EntityFramework查询oracle数据库时报ora-12704: character set mismatch
  6. Machine Learning for hackers读书笔记(十二)模型比较
  7. While reading xxx.png pngcrush caught libpng error: Not a PNG file..
  8. 从IRP说起(转)
  9. iOS speex
  10. angularjs中关于ng-if的一些理论
  11. 关于overload和override
  12. 关于js中select的简单操作,以及js前台计算,span简单操作
  13. wordpress教程之修改上传文件大小限制
  14. contextmenu
  15. 第二章App框架设计与重构
  16. jQuery 效果 – 滑动
  17. sqlalchemy查询结果类型简析
  18. Python 死锁现象
  19. SQL Server如何查看当前数据库连接的SPID
  20. 解决input中智能提示框onblur与onclick冲突的问题

热门文章

  1. deepin安装Python3.6和pip
  2. Leetcode480-Sliding Window Median
  3. Eureka-zookeeper的服务发现替代方案
  4. Java开发人员必会的基本Linux命令(转)
  5. NT1_keras下搭建一个3层模型并且修改。
  6. 【python51--__name__属性】
  7. Linux内核中的netlink是什么?
  8. vi中如何使用cscope来查找函数的定义
  9. Docker 编排工具Rancher 1.6.18
  10. 【解决办法】Undefined command/function &#39;mapminmax&#39;.