1.安装jdk(配置JAVA_HOME,CLASSPATH,path)

2.安装scala(配置SCALA_HOME,path)

3.安装spark

Spark的安装非常简单,直接去Download Apache Spark。有两个步骤:
● 选择好对应Hadoop版本的Spark版本,如下图中所示;

● 然后点击下图中箭头所指的spark-1.6.2-bin-hadoop2.6.tgz,等待下载结束即可。

这里使用的是Pre-built的版本,意思就是已经编译了好了,下载来直接用就好,Spark也有源码可以下载,但是得自己去手动编译之后才能使用。下载完成后将文件进行解压(可能需要解压两次),最好解压到一个盘的根目录下,并重命名为Spark,简单不易出错。并且需要注意的是,在Spark的文件目录路径名中,不要出现空格,类似于“Program Files”这样的文件夹名是不被允许的。
解压后基本上就差不多可以到cmd命令行下运行了。但这个时候每次运行spark-shell(spark的命令行交互窗口)的时候,都需要先cd到Spark的安装目录下,比较麻烦,因此可以将Spark的bin目录添加到系统变量PATH中。例如我这里的Spark的bin目录路径为D:\Spark\bin,那么就把这个路径名添加到系统变量的PATH中即可,方法和JDK安装过程中的环境变量设置一致,设置完系统变量后,在任意目录下的cmd命令行中,直接执行spark-shell命令,即可开启Spark的交互式命令行模式。

4.安装hadoop

系统变量设置后,就可以在任意当前目录下的cmd中运行spark-shell,但这个时候很有可能会碰到各种错误,这里主要是因为Spark是基于Hadoop的,所以这里也有必要配置一个Hadoop的运行环境。在Hadoop Releases里可以看到Hadoop的各个历史版本,这里由于下载的Spark是基于Hadoop 2.6的(在Spark安装的第一个步骤中,我们选择的是Pre-built for Hadoop 2.6),我这里选择2.6.4版本,选择好相应版本并点击后,进入详细的下载页面,如下图所示,选择图中红色标记进行下载,这里上面的src版本就是源码,需要对Hadoop进行更改或者想自己进行编译的可以下载对应src文件,我这里下载的就是已经编译好的版本,即图中的hadoop-2.6.4.tar.gz文件。
 

 下载并解压到指定目录,然后到环境变量部分设置HADOOP_HOME为Hadoop的解压目录,我这里是F:\Program Files\hadoop,然后再设置该目录下的bin目录到系统变量的PATH下,我这里也就是F:\Program Files\hadoop\bin,如果已经添加了HADOOP_HOME系统变量,也可以用%HADOOP_HOME%\bin来指定bin文件夹路径名。这两个系统变量设置好后,开启一个新的cmd,然后直接输入spark-shell命令。
正常情况下是可以运行成功并进入到Spark的命令行环境下的,但是对于有些用户可能会遇到空指针的错误。这个时候,主要是因为Hadoop的bin目录下没有winutils.exe文件的原因造成的。这里的解决办法是:
  • 去 https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号,然后进入到bin目录下,找到winutils.exe文件,下载方法是点击winutils.exe文件,进入之后在页面的右上方部分有一个Download按钮,点击下载即可。
  • 下载好winutils.exe后,将这个文件放入到Hadoop的bin目录下,我这里是F:\Program Files\hadoop\bin。
5.运行spark-shell.cmd
 
 

最新文章

  1. Atitit 图像处理—图像形态学(膨胀与腐蚀)
  2. IOS常用第三方开源类库&组件
  3. tmpfs
  4. Combination Sum [LeetCode]
  5. ASP运行流程(主要的类笔记)
  6. 设计模式知识搜集(c++)
  7. web.config配置aspx页面默认引用的namespace
  8. Android 项目利用 Android Studio 和 Gradle 打包多版本APK
  9. 在IIS里面调试asp.net程序
  10. [数据结构] 成都磨子桥技工学校 Challenge Series
  11. Junit4_单元测试
  12. Javascript跳转手机站代码
  13. Clojure学习05:谓词函数
  14. R自带数据包
  15. Lucene搜索引擎例子demo
  16. 压力测试:系统吞吐量、TPS(QPS)、用户并发量、性能测试概念和公式
  17. Netty buffer缓冲区ByteBuf
  18. 使用git创建与合并分支
  19. Linux Cluster
  20. 八、K3 WISE 开发插件《工业单据老单插件中获取登陆用户名》

热门文章

  1. JNI由浅入深_2_C语言基础
  2. Java中 方法的多态 简析图
  3. mysql5.7关于使用到OR是否会用到索引并提高查询效率的探讨
  4. 简述对Vuex的理解
  5. 大数据学习之Hadoop运行模式
  6. 数据采集与分析的那些事——从数据埋点到AB测试
  7. Zeta--S3 Linux使用PCCAM/WEBCAM模式
  8. golang 后台服务设计精要
  9. 20155232 实验二《Java面向对象程序设计》实验报告
  10. 2017-2018-1 20155308&20155321&20155330《信息安全技术》实验三——数字证书应用1