Spark源码编译(未完待续)
在这里我们不需要搭建独立的Spark集群,利用Yarn Client调用Hadoop集群的计算资源。
Spark源码编译生成配置包:
解压源码,在根去根目录下执行以下命令(sbt编译我没尝试)
./make-distribution.sh --hadoop 2.4.0 --with-yarn --tgz --with-hive
几个重要参数
--hadoop :指定Hadoop版本
--with-yarn yarn支持是必须的
--with-hive 读取hive数据也是必须的,反正我很讨厌Shark,以后开发们可以在Spark上自己封装SQL&HQL客户端,也是个不错的选择。
# --tgz: Additionally creates spark-$VERSION-bin.tar.gz
# --hadoop VERSION: Builds against specified version of Hadoop.
# --with-yarn: Enables support for Hadoop YARN.
# --with-hive: Enable support for reading Hive tables.
# --name: A moniker for the release target. Defaults to the Hadoop verison
测试:
SPARK_JAR="hdfs://master001.bj:9000/jar/spark/spark-assembly-1.0.0-hadoop2.4.0.jar" \
./bin/spark-class org.apache.spark.deploy.yarn.Client \
--jar ./lib/spark-examples-1.0.0-hadoop2.4.0.jar \
--class org.apache.spark.examples.JavaWordCount \
--args hdfs://master001.bj:9000/temp/read.txt \
--num-executors 50 \
--executor-cores 1 \
--driver-memory 2048M \
--executor-memory 1000M \
--name "word count on spark"
生成jar包,用于Spark应用程序开发
mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package
其余的编译方式参考:http://www.tuicool.com/articles/q6faMv2
最新文章
- QT操作EXCEL
- 用康托展开实现全排列(STL、itertools)
- 使用 archetype插件创建maven目录结构
- oracle增加表空间的四种方法,查询表空间使用情况
- Android 虚拟机Dalvik、Android各种java包功能、Android相关文件类型、应用程序结构分析、ADB
- 属性";XmlFileName";的代码生成失败
- 排列-条件求和(Code)
- mb_detect_encoding() 运行sitemap.php 字符编码不能转换修改php.ini
- Linux下 开启防火墙端口
- VS2010中使用Jquery调用Wcf服务读取数据库记录
- .NET Core 迁移躺坑记
- 自动的输入号码的辅助软件在ie浏览器下的尝试
- JarvisOJ Basic Base64?
- 升级nginx 和nchan
- java compareTo() 用法注意点
- 使用Ajax异步上传图片的方法(html,javascript,php)
- jsp el的内置对象
- pandas练习(四)--- 应用Apply函数
- socket.io api 总结
- POJ.1067 取石子游戏 (博弈论 威佐夫博弈)
热门文章
- 【转】sed 高级用法
- C#之DataTable转List与List转Datatable
- mongodb进阶
- 洛谷 [P2765] 魔术球问题
- bzoj 3597: [Scoi2014]方伯伯运椰子 [01分数规划 消圈定理 spfa负环]
- BZOJ 3809: Gty的二逼妹子序列 &; 3236: [Ahoi2013]作业 [莫队]
- BZOJ 1486: [HNOI2009]最小圈 [01分数规划]
- POJ 1755 Triathlon [半平面交 线性规划]
- Python tutorial阅读之使用 Python 解释器
- js跨域解决方案