一、组件版本说明

Java JDK:1.8.0_144

spark-2.4.3-bin-hadoop2.7
hadoop-2.7.7

scala-2.12.8

hadooponwindows-master

Python3.7

注意事项:

Spark运行在Java 8 +,Python 2.7 + / 3.4 +和R 3.1+上。对于Scala API,Spark 2.4.3使用Scala 2.12。您需要使用兼容的Scala版本(2.12.x)

1、JDK安装

下载安装后配置环境变量:

配置环境变量的方法为电脑[右键]——>属性——>环境变量,编辑环境变量方法见下图

配置完成后:开启cmd窗口

2、配置Scala

下载地址:

https://www.scala-lang.org/download/2.12.8.html

安装完成后,配置环境变量

3、安装Spark

下载地址:

http://spark.apache.org/downloads.html

解压后配置环境变量:

4、安装hadoop

下载地址:

http://hadoop.apache.org/releases.html

解压后配置环境变量:

5、安装Python3.7

6、把hadooponwindows-master的bin覆盖hadoop-2.7.7的bin

7、处理Python相关

1,将spark所在目录下(比如我的D:\IT\bigdata\soft\spark-2.4.3-bin-hadoop2.7\python)的pyspark文件夹拷贝到python文件夹下(我的是D:\IT\python\Python\Lib\site-packages)

2,安装py4j库

一般的在cmd命令行下 pip install py4j 就可以。若是没有将pip路径添加到path中,就将路径切换到python的Scripts中,然后再 pip install py4j 来安装库。

3 修改权限

将winutils.exe文件放到Hadoop的bin目录下(我的是E:\spark\spark-2.1.0-bin-hadoop2.7\bin),然后以管理员的身份打开cmd,然后通过cd命令进入到Hadoop的bin目录下,然后执行以下命令:

winutils.exe chmod 777 c:\tmp\Hive
8、启动

9、使用Pycharm新建一个wordcount例程

from pyspark import SparkConf, SparkContext
# 创建SparkConf和SparkContext
conf = SparkConf().setMaster("local").setAppName("lichao-wordcount")
sc = SparkContext(conf=conf)
# 输入的数据
data = ["hello", "world", "hello", "word", "count", "count", "hello"]
# 将Collection的data转化为spark中的rdd并进行操作
rdd = sc.parallelize(data)
resultRdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
# rdd转为collecton并打印
resultColl = resultRdd.collect()
for line in resultColl:
print(line)

搭建完成啦!

最新文章

  1. CSharpGL(39)GLSL光照示例:鼠标拖动太阳(光源)观察平行光的漫反射和镜面反射效果
  2. 我所理解的RESTful Web API [设计篇]
  3. 17、文案人员 - IT软件人员书籍系列文章
  4. Effective C++ -----条款15:在资源管理类中提供对原始资源的访问
  5. iOS 安装Cocoapods以及安装第三方库的操作流程
  6. Activity跳转时生命周期跟踪
  7. 问题解决——multimap中统计key的种类
  8. [HihoCoder] Highway 高速公路问题
  9. HTML5和CSS3的学习视频
  10. 嵌入式Linux系统运行流程图
  11. Android核心基础(十一)
  12. 基于Entity Framework的自定义分页,增删改的通用实现
  13. 201521123110 《Java程序设计》第1周学习总结
  14. 激光相机数据融合(4)--KITTI数据集中matlab接口说明及扩展
  15. Flask-----Flask里引用哈希密码
  16. MSA微服务
  17. SQLServer代理新建或者编辑作业报错
  18. 【Darwin学习笔记】之TaskThread
  19. 关于windows中在env中执行django-admin.py出现Access is denied.的解决办法
  20. Jquery中parentsUntil函数调用最容易犯的三个错误

热门文章

  1. 转:【Python3网络爬虫开发实战】3.1.2-处理异常
  2. 第九章 Python文件操作
  3. PyQt(Python+Qt)学习随笔:枚举类QTreeWidgetItem.ItemType、QListWidgetItem.ItemType的取值及含义
  4. go学习第四天
  5. 题解-CmdOI2019 口头禅
  6. AcWing 404. 婚礼
  7. 题解-SDOI2013 淘金
  8. SpringBoot+Redis相关配置文件
  9. apt-get could not get lock /var/lib/dpkg/lock报错
  10. Kubernetes【K8S】(五):Service