Tajo--一个分布式数据仓库系统(分布式环境安装试用)
2024-08-29 06:33:26
前面两篇介绍了一下tajo,下面就说一下安装和使用吧。
一、分布式安装
前提:hadoop2中的hdfs和yarn已经安装并运行正常。
1、下载source并build源码
$git clone https://git-wip-us.apache.org/repos/asf/incubator-tajo.git tajo $ cd tajo $ mvn clean package -DskipTests -Pdist -Dtar $ ls tajo-dist/target/tajo-x.y.z-SNAPSHOT.tar.gz
2、将tag.gz解压到需要安装的地方
$ tar xzvf tajo-0.2.-SNAPSHOT.tar.gz
3、配置tajo-site.xml
<property> <name>tajo.rootdir</name> <value>hdfs://hostname:9000/tajo</value> </property> <property> <name>tajo.worker.tmpdir.locations</name> <value>/home/ds/clouderaCDH/tajoTmp</value> </property> <property> <name>tajo.master.umbilical-rpc.address</name> <value>hostname:</value> </property> <property> <name>tajo.catalog.client-rpc.address</name> <value>hostname:</value> </property> <property> <name>tajo.master.client-rpc.address</name> <value>hostname:</value> </property> <property> <name>tajo.worker.parallel-execution.max-num</name> <value></value> </property>
4、 配置tag-env.sh
# Hadoop home. Required export HADOOP_HOME=/home/ds/clouderaCDH/hadoop-2.0.-cdh4.2.1 # The java implementation to use. Required. export JAVA_HOME=/usr/lib/jvm/java--sun # The maximum amount of heap to use, in MB. Default is . export TAJO_MASTER_HEAPSIZE= # The maximum amount of heap to use, in MB. Default is . export TAJO_WORKER_HEAPSIZE=
5、 配置workers文件
worker01
worker02
6、 将配置好的tajo同步到其他节点并启动
scp -r tajo02 worker01:/home/ds/clouderaCDH/ bin/start-tajo.sh
7、 查看进程是否启动
jps
TajoMaster
TajoWorker
二、SQL交互
创建表
1、 从hdfs上得csv文件创建外部表
test文件夹下放一个data.csv文件,内容:
|abc|1.1|a
|def|2.3|b
|ghi|3.4|c
|jkl|4.5|d
|mno|5.6|e
创建表并load数据
create external table table1 (id int, name text, score float, type text) using csv with ('csvfile.delimiter'='|') location 'hdfs://hostname:9000/tajo/warehouse/test’
查询交互
支持绝大部分的SQL92。
1、使用limit查询
$ select * from table1 limit ; id, name, score, type
-------------------------------
, abc, 1.1, a
, def, 2.3, b
三、参考资料
[1] http://wiki.apache.org/tajo
[2] http://tajo.incubator.apache.org/
[3] https://issues.apache.org/jira/browse/TAJO
最新文章
- linux的用户与用户组
- Angular2.0快速开始
- windows Service
- Siverlight 导出Excel (经测试通过 Vs2010 ,silverlight5 )
- 研华外触发实验PCI1714板卡安装事项
- Json概述以及python对json的相关操作(转)
- P6 EPPM R16.1安装与配置指南(三)
- 编写一个Java项目,定义包,在包下定义包含main方法的类,在main方法中声明8种基本数据类型的变量并赋值,练习数据类型转换。
- Informix SDK對比
- java学习一目了然&mdash;&mdash;File类文件处理
- LintCode题解之最长单词
- Flask插件wtforms、Flask文件上传和Echarts柱状图
- 2019省赛训练组队赛3.31周四-17fj
- 原生JavaScript写select下拉选择后跳转页面
- Java虚拟机详解----常用JVM配置参数
- linq时间筛选以及list时间筛选
- Flannel - 原理
- Images之Dockerfile中的命令1
- [LeetCode&;Python] Problem 404. Sum of Left Leaves
- SimpleDraweeView 设置圆角不生效问题