pyspark使用

1、安装python3

2、idea安装Python插件

3、下载spark，设置SPARK_HOME环境变量

4、安装pyspark，numpy

5、运行pyspark应用

pyspark应用如果使用到特定的接口，如kafka，则需要将kafka相关的jar包放到SPARK_HOME的jar文件夹里，不然会报找不到datasource的错

要本地调试hive，需要将hive配置文件放置到SPARK_HOME的conf目录下

6、运行报错可能跟spark库的版本有关系，如有必要可以删除不对的mvn本地仓库jar包

7、spark dataframe转pandas dataframe用toPandas()注意不要漏掉括号，与scala不一样。

巴特西