Spark之standalone模式
standalone
hdfs:namenode是主节点进程,datanode是从节点进程
yarn:resourcemanager是主节点进程,nodemanager是从节点进程
hdfs和yarn是hadoop里面的节点进程信息
在spark里面有
master:主节点进程
worker:从节点进程
使用standalone模式:
将$SPARK_HOME/conf/目录下的slaves.template修改为slaves后添加主机名,如果有5个台机器就应该进行如下slaves的配置hadoop001~hadoop005
如果是多台机器,那么每台机器都在相同的路径下部署spark
将$SPARK_HOME/conf/目录下的spark-env.sh.template修改为spark-env.sh并添加JAVA_HOME的环境变量,否则会报错
配置完成后启动
在$SPARK_HOME/sbin/目录下执行./start-all.sh,通过jps检测会有Master和Worker两个节点进程,就说明standalone模式安装成功。
web界面访问:
MasterWebUI:http://hadoop000:8080
spark提交作业时指定的端口:spark://hadoop000:7077
提交作业到standalone模式
$SPARK_HOME/bin/执行./pyspark --master spark://hadoop000:7077
standalone模式spark-submit运行
$SPARK_HOME/bin/执行./spark-submit --master spark://hadoop000:7077 --name spark-standalone /home/hadoop/script/spark0402.py hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output
如果使用standalone模式,而且节点个数大于1的时候,如果使用本地文件测试,必须要保证每个节点上都有本地测试文件,可以直接用hdfs进行测试。
例如:hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output
yarn运行模式
spark on yarn(spark作为客户端,spark需要做的事情是提交作业到yarn上执行)
yarn和standalone的区别:
yarn模式:只需要一个节点,然后提交作业即可,不需要spark集群的(不需要启动Maser和Worker)
standalone模式:在spark集群上的每个节点都需要部署spark,然后需要启动spark集群(需要Maser和Worker进程节点)
启动yarn:
$SPARK_HOME/bin/执行./spark-submit --master yarn --name spark-yarn /home/hadoop/script/spark0402.py hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output
运行yarn模式前提是需要指定hadoop_conf_dir或者yarn_conf_dir的配置文件目录
将$HADOOP_HOME/etc/hadoop目录,添加到$SPARK_HOME/conf/目录下的spark-env.sh文件中。例如:HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
yarn支持client和cluster模式:driver运行在哪里
client:提交作业的进程是不能停止的否则作业就挂了
cluster:提交完作业,那么提交作业端就可以断开,因为driver是运行在am里面的
pyspark/spark-shell:交互式运行程序,只能运行在client里面
如何查看已经运行完的yarn的日志信息:yarn logs -applicationId <applicationId>
日志聚合参看:10小时入门Hadoop大数据中的5-12 JobHistory使用
最新文章
- Java 快速排序两种实现
- javascript 核心语言笔记- 2 语法结构
- JQuery------Select标签的各种使用方法
- Qt修改xml文件
- EntityFramework查询oracle数据库时报ora-12704: character set mismatch
- Machine Learning for hackers读书笔记(十二)模型比较
- While reading xxx.png pngcrush caught libpng error: Not a PNG file..
- 从IRP说起(转)
- iOS speex
- angularjs中关于ng-if的一些理论
- 关于overload和override
- 关于js中select的简单操作,以及js前台计算,span简单操作
- wordpress教程之修改上传文件大小限制
- contextmenu
- 第二章App框架设计与重构
- jQuery 效果 – 滑动
- sqlalchemy查询结果类型简析
- Python 死锁现象
- SQL Server如何查看当前数据库连接的SPID
- 解决input中智能提示框onblur与onclick冲突的问题
热门文章
- deepin安装Python3.6和pip
- Leetcode480-Sliding Window Median
- Eureka-zookeeper的服务发现替代方案
- Java开发人员必会的基本Linux命令(转)
- NT1_keras下搭建一个3层模型并且修改。
- 【python51--__name__属性】
- Linux内核中的netlink是什么?
- vi中如何使用cscope来查找函数的定义
- Docker 编排工具Rancher 1.6.18
- 【解决办法】Undefined command/function &#39;mapminmax&#39;.