HiBench资源及教程:https://github.com/intel-hadoop/HiBench

介绍:

Hadoop新人

环境 linux

该笔记针对英语弱鸡&自己在使用过程用遇到的问题的记录。

步骤:

首先创建一个文件夹HiBench:mkdir HiBench

cd HiBench

git clone https://github.com/intel-hadoop/HiBench

先介绍一下我的测试集群的环境:

master 
resourcemanager 
datanode1
datanode2
datanode3
 

概述

HiBench是用来在速度方面评估不同的大数据框架的,它包括一系列的Hadoop,Spark,streaming工作负载,包括sort,wordcount,TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO,等。同样也为park Streaming, Flink, Storm and Gearpump提供工作负载。

Getting Started

  • Build HiBench
  • Run HadoopBench
  • Run SparkBench
  • Run StreamingBench (Spark streaming, Flink, Storm, Gearpump)

Build HiBench

运行mvn -Dscala=2.11 clean package 是Build All,即建立HiBench的所有模块。

可能遇到的问题:

1.bash: mvn : command not found

原因:你的系统上没有安装maven

解决方法:去官网下载

2.执行过程中出现失败

原因:可能是网络的问题吧,我也不是很清楚

解决方法:重复执行该命令,最后出现build succeed 即可。

Run HadoopBench

1.确保:

  • Python 2.x(>=2.6) is required.

  • Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP

  • Build HiBench according to build HiBench.

  • Start HDFS, Yarn in the cluster.

2.创建并修改配置文件hadoop.conf

在HiBench的conf下:mkdir hadoop.conf

在HiBench下: cp conf/hadoop.conf.template conf/hadoop.conf

然后修改配置文件: vim hadoop.conf

按照下图的规范:

注意:

1.hibench.hadoop.home是你本机上hadoop的安装路径

2.在配置hibench.hdfs.master的时候我傻傻地写了hdfs://localhost:8020/user/username。。。导致后来运行脚本一直不成功。

首先localhost是你的机器的IP,也可以在命令行输入hostname,用hostname来代替localhost即可。

后面的端口号也不是8020,要根据本机的端口,在命令行输入vi ~/local/hadoop-2.7.3/etc/hadoop/core-site.xml,可以观察到

hdfs://master:9000代替hdfs://localhost:8020,

username写的是你把数据存在了usr下的那个文件里

我配置完的情况是:

接下来就是在HiBench下运行脚本

bin/workloads/micro/wordcount/prepare/prepare.sh
bin/workloads/micro/wordcount/hadoop/run.sh
如果前面都没有问题的话,是能正常执行的。
执行完成以后,你可以在HiBench/report/hibench.report中查看 workload name, execution duration, data size, throughput per cluster, throughput per node等信息

数据规模也是可以设置的:修改conf/hibench.conf里面的hibench.scale.profile项。

未完待续。。。

最新文章

  1. java对象与json串互转
  2. BZOJ1598: [Usaco2008 Mar]牛跑步
  3. [.NET领域驱动设计实战系列]专题八:DDD案例:网上书店分布式消息队列和分布式缓存的实现
  4. python Chrome 开发者模式消失的方法
  5. [译]Mongoose指南 - Plugin
  6. CSS用类选择器在本页写样式
  7. 数据库添加数据I
  8. C#类的成员初始化顺序
  9. [iOS基础控件 - 6.7] 微博展示 使用代码自定义TableCell(动态尺寸)
  10. .Net程序员快速学习安卓开发-布局和点击事件的写法
  11. POJ3026 Borg Maze(最小生成树)
  12. Jasper_dataSource_CSV data source config
  13. mfc menu用法一
  14. 3TB硬盘的容量已经超出了传统分区标准的支持
  15. Scala + Play + Sbt + Protractor
  16. Visual Representation of SQL Joins
  17. 一个php技术栈后端猿的知识储备大纲
  18. html中的title和alt
  19. hibernate框架学习笔记8:一对多关系案例
  20. 关于redis分布式锁的实现方式(转载)

热门文章

  1. 侯捷STL学习(八)-- 深度探索deque
  2. Windows 常见进程
  3. Firefox切换页面默认显示语言
  4. jQuery实现页内锚点平滑跳转
  5. 没有dig命令的结觉方法
  6. cookie禁用后非重定向跳转时session的跟踪
  7. show table detail
  8. [poj2398]Toy Storage
  9. poj2287 Tian Ji -- The Horse Racing
  10. Luogu 3205 [HNOI2010]合唱队