1.  环境 : centos,启动pyspark,执行如下python命令:

import pyspark
from pyspark import SparkContext
from pyspark import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf) #flatMap() 对RDD中的item执行同一个操作以后得到一个list,然后以平铺的方式把这些list里所有的结果组成新的list
sentencesRDD=sc.parallelize(['Hello world','My name is Patrick'])
wordsRDD=sentencesRDD.flatMap(lambda sentence: sentence.split(" "))
print (wordsRDD.collect())
print (wordsRDD.count())

用root账号没问题:

用非root账号会有此问题如下:_PYSPARK_DRIVER_CONN_INFO_PATH,后台设置下/etc/profile 中环境变量可以了。

vi /etc/profile  加入:,source /etc/profile

2.  后来在 jupyter notebook远程登录后(非root账号),发现还是有这个问题。(其实就是环境变量没有加载完全。)

解决方法在脚本开头加入:

#jupyter需要初始化pyspark相关环境变量
import findspark
findspark.init()
import os,sys
os.environ['SPARK_HOME'] = "/bin/spark-2.4.0"
sys.path.append("/bin/spark-2.4.0/python")
sys.path.append("/bin/spark-2.4.0/python/lib/py4j-0.10.7-src.zip")

最新文章

  1. ecshop 支付
  2. intelliJ idea debug模式下启动慢的原因
  3. A funny story in regard to a linux newbie
  4. ASP.NET MVC中从前台页面视图(View)传递数据到后台控制器(Controller)方式
  5. java dos下中文乱码
  6. Allegro PCB -通孔焊盘制作 及Flash制作
  7. HYBControllerTransitions中文文档
  8. DOM解析原理示意
  9. AI行业需要什么样的人才
  10. 初识mango DB
  11. MacOS High Sierra 引起 VirtualBox Vagrant 同步慢
  12. 直接添加viewController中的view时的注意事项
  13. React脚手架创建一个React应用以及项目目录结构详解
  14. CentOS7 完整安装后创建私有的yum仓库
  15. 《DSP using MATLAB》Problem5.23
  16. Anroid 4大组件之android.app.Service
  17. geoserver 的缓存技术
  18. [转载红鱼儿]Delphi XE7 update1进步太大了
  19. appium在android7.0上无法启动问题
  20. winscp上传出现时间戳提示错误

热门文章

  1. 通过url传递参数如果汉字乱码采用的方法
  2. git branch 分支管理
  3. Java如何实现跨平台
  4. 算法入门及其C++实现
  5. redis 一主二从三哨兵
  6. Python练习1
  7. 04-接口隔离原则(ISP)
  8. Java Web之路(一)Servlet
  9. dp题
  10. cartographer 安装问题