pyspark遇到报错:_PYSPARK_DRIVER_CONN_INFO_PATH
2024-10-18 18:27:26
1. 环境 : centos,启动pyspark,执行如下python命令:
import pyspark
from pyspark import SparkContext
from pyspark import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf) #flatMap() 对RDD中的item执行同一个操作以后得到一个list,然后以平铺的方式把这些list里所有的结果组成新的list
sentencesRDD=sc.parallelize(['Hello world','My name is Patrick'])
wordsRDD=sentencesRDD.flatMap(lambda sentence: sentence.split(" "))
print (wordsRDD.collect())
print (wordsRDD.count())
用root账号没问题:
用非root账号会有此问题如下:_PYSPARK_DRIVER_CONN_INFO_PATH,后台设置下/etc/profile 中环境变量可以了。
vi /etc/profile 加入:,source /etc/profile
2. 后来在 jupyter notebook远程登录后(非root账号),发现还是有这个问题。(其实就是环境变量没有加载完全。)
解决方法在脚本开头加入:
#jupyter需要初始化pyspark相关环境变量
import findspark
findspark.init()
import os,sys
os.environ['SPARK_HOME'] = "/bin/spark-2.4.0"
sys.path.append("/bin/spark-2.4.0/python")
sys.path.append("/bin/spark-2.4.0/python/lib/py4j-0.10.7-src.zip")
最新文章
- ecshop 支付
- intelliJ idea debug模式下启动慢的原因
- A funny story in regard to a linux newbie
- ASP.NET MVC中从前台页面视图(View)传递数据到后台控制器(Controller)方式
- java dos下中文乱码
- Allegro PCB -通孔焊盘制作 及Flash制作
- HYBControllerTransitions中文文档
- DOM解析原理示意
- AI行业需要什么样的人才
- 初识mango DB
- MacOS High Sierra 引起 VirtualBox Vagrant 同步慢
- 直接添加viewController中的view时的注意事项
- React脚手架创建一个React应用以及项目目录结构详解
- CentOS7 完整安装后创建私有的yum仓库
- 《DSP using MATLAB》Problem5.23
- Anroid 4大组件之android.app.Service
- geoserver 的缓存技术
- [转载红鱼儿]Delphi XE7 update1进步太大了
- appium在android7.0上无法启动问题
- winscp上传出现时间戳提示错误