1、安装python3

2、idea安装Python插件

3、下载spark,设置SPARK_HOME环境变量

4、安装pyspark,numpy

5、运行pyspark应用

pyspark应用如果使用到特定的接口,如kafka,则需要将kafka相关的jar包放到SPARK_HOME的jar文件夹里,不然会报找不到datasource的错

要本地调试hive,需要将hive配置文件放置到SPARK_HOME的conf目录下

6、运行报错可能跟spark库的版本有关系,如有必要可以删除不对的mvn本地仓库jar包

7、spark dataframe转pandas dataframe用toPandas()注意不要漏掉括号,与scala不一样。

最新文章

  1. ETL基础1(概念)
  2. Jupyter Notebook 27绝技——27 Jupyter Notebook tips, tricks and shortcuts
  3. Atitit usrqbg1834 html的逻辑化流程化 规范标准化解决方案
  4. [Js]JavaScript闭包和范围的快速测试
  5. [HDU 1973]--Prime Path(BFS,素数表)
  6. 并发编程实践五:ReentrantLock
  7. Hibernate双向关联的增删改操作的属性
  8. git的使用,eclipse操作(待更新)
  9. java中的数组二分法
  10. 帝国cms中当调用当前信息不足时,继续取其他数据
  11. 小tips:Hbuilder编辑器开启less自动编译为css的方法
  12. Wshshell 脚本简单学习
  13. 《OFFER14》14_CuttingRope
  14. Linux使用touch批量修改文件/文件夹时间戳
  15. android testview + listview 整体滚动刷新
  16. C++ 第十一课 标准c内存函数
  17. easyui-layout系列之表单一(2)
  18. 深度认识 Sharding-JDBC:做最轻量级的数据库中间层
  19. Snackbar学习笔记
  20. Secondary NameNode究竟是做什么的

热门文章

  1. [洛谷P2085]最小函数值
  2. python、js 时间日期模块time
  3. Ehcache学习总结(1)--Ehcache入门介绍
  4. centos同步网络北京时间
  5. DICOM:Transfer Syntax传输语义之奇葩GE Private TS
  6. 【Android进阶】Junit单元測试环境搭建以及简单有用
  7. SharePoint创建Alternate Access Mapping (AAM)备用訪问映射
  8. c++动态库中使用命名空间的问题
  9. vue2.0 vue-loader
  10. oh-my-zsh upgrade problem