pyspark使用
2024-08-28 05:55:25
1、安装python3
2、idea安装Python插件
3、下载spark,设置SPARK_HOME环境变量
4、安装pyspark,numpy
5、运行pyspark应用
pyspark应用如果使用到特定的接口,如kafka,则需要将kafka相关的jar包放到SPARK_HOME的jar文件夹里,不然会报找不到datasource的错
要本地调试hive,需要将hive配置文件放置到SPARK_HOME的conf目录下
6、运行报错可能跟spark库的版本有关系,如有必要可以删除不对的mvn本地仓库jar包
7、spark dataframe转pandas dataframe用toPandas()注意不要漏掉括号,与scala不一样。
最新文章
- ETL基础1(概念)
- Jupyter Notebook 27绝技——27 Jupyter Notebook tips, tricks and shortcuts
- Atitit usrqbg1834 html的逻辑化流程化 规范标准化解决方案
- [Js]JavaScript闭包和范围的快速测试
- [HDU 1973]--Prime Path(BFS,素数表)
- 并发编程实践五:ReentrantLock
- Hibernate双向关联的增删改操作的属性
- git的使用,eclipse操作(待更新)
- java中的数组二分法
- 帝国cms中当调用当前信息不足时,继续取其他数据
- 小tips:Hbuilder编辑器开启less自动编译为css的方法
- Wshshell 脚本简单学习
- 《OFFER14》14_CuttingRope
- Linux使用touch批量修改文件/文件夹时间戳
- android testview + listview 整体滚动刷新
- C++ 第十一课 标准c内存函数
- easyui-layout系列之表单一(2)
- 深度认识 Sharding-JDBC:做最轻量级的数据库中间层
- Snackbar学习笔记
- Secondary NameNode究竟是做什么的
热门文章
- [洛谷P2085]最小函数值
- python、js 时间日期模块time
- Ehcache学习总结(1)--Ehcache入门介绍
- centos同步网络北京时间
- DICOM:Transfer Syntax传输语义之奇葩GE Private TS
- 【Android进阶】Junit单元測试环境搭建以及简单有用
- SharePoint创建Alternate Access Mapping (AAM)备用訪问映射
- c++动态库中使用命名空间的问题
- vue2.0 vue-loader
- oh-my-zsh upgrade problem