hive的metastore表设计

Hive metastore表结构设计分析

今天总结下,Hive metastore的结构设计.什么是metadata呢,对于它的描述,可以理解为数据的数据,主要是描述数据的属性的信息.它是用来支持如存储位置.历史数据.资源查找.文件记录等功能.元数据算是一种电子式目录.为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的. 那么我们从hive metastore的表结构设计开始: 看到后,是不是有一种想死的冲动?没错,我也想死,但是我们可以一点一点的看,也会有理解错误,但这都是在我们通向精通的路途之上,不

hive介绍及架构设计

hive介绍及架构设计作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们知道MapReduce和Spark它们提供了高度抽象的编程接口便于用户编写分布式程序,它们具有极好的扩展性和容错性,能够处理超大规模的数据集.这些计算引擎提供了面向高级语言(比如Java,Python等)的编程接口,然而,考虑到分布式程序编写的复杂性,直接使用这些编程接口实现应用系统(比如报表系统)无疑会提高使用门槛,降低开发效率.考虑到SQL仍然是一种非常主流的数据分析语言,开源社区在分布式计算框架基

【hive】——metastore的三种模式

Hive中metastore(元数据存储)的三种方式: 内嵌Derby方式 Local方式 Remote方式 [一].内嵌Derby方式这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库. hive-site.xml 中jdbc URL.驱动.用户名.密码等的配置信息如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Hive初步使用、安装MySQL 、Hive配置MetaStore、配置Hive日志《二》

一.Hive的简单使用基本的命令和MySQL的命令差不多首先在 /opt/datas 下创建数据 students.txt 1001 zhangsan 1002 lisi 1003 wangwu 显示有多少数据库: show databases; 使用某个数据库: use 数据库名称; 显示当前数据库下的表: show tables; 创建数据表 : create table student (id int,name string) ROW FORMAT DELIMITED FIELDS

hive中的表

一.内部表与外部表的比较 Hive表概念和关系型数据库表概念差不多.在Hive里表会和HDFS的一个目录相对应,这个目录会存放表的数据.目录默认是/usr/hive/warehouse/. 比如你在hadoop09数据库创建了emp表,那么HDFS中就会有/user/hive/warehouse/hadoop09.db/emp这个目录来存放表里的数据. 管理表:管理表又被称之为内部表,他只管理着数据生命周期,当我们删除这张表时,元数据和存储的业务数据都会被删除,也就是说HDFS所对应的表目录应该

Hive的metastore

hive --service metastore 默认端口是9083 <property> <name>hive.metastore.uris</name> <value>thrift://hiveserver1:9083</value> </property> 在连接hive的客户端,如spark,可以只在hive-site.xml中配置这一个属性即可. 不需要配置mysql连接信息与用户密码信息,hiver server作为thr

【完美解决】Spark-SQL、Hive多 Metastore、多后端、多库

[完美解决]Spark-SQL.Hive多 Metastore.多后端.多库 [完美解决]Spark-SQL.Hive多 Metastore.多后端.多库 SparkSQL 支持同时连接多种 Metastore,包括Atlas2(PB),Hive 0.12+几种格式.用户可以在一条SQL语句中操作来自多个 Metastore 的表. 配置 Metastore 按照正常的使用方式配置 conf/hive-site.xml 比如配置访问 mysql: <?xml version="1.0&qu

hive中更改表impala中不能生效

hive中的更新或者新建表impala 不能实时更新 Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中.最近在生产中,我发现在hive 中更改表结构,或者建表在impala中查询新建的表报错,或者更改的字段不能实时更新. 问题原因这是因为元数据信息没有及时刷新.在impala 1.2中加入的进程catalogd,主要就是将hive的metastore所存储的元数据缓存到impala

优化一个奇葩表设计上的全表扫描SQL

之前在一个比较繁忙的系统抓到的耗时长.消耗CPU多的一条SQL,如下:SELECT * FROM Z_VISU_DATA_ALARM_LOG TWHERE TO_DATE(T.T_TIMESTR, 'MM/DD/YY HH24:MI:SS'))<=(TO_DATE(TO_CHAR(SYSDATE, 'yyyy-mm-dd HH24:mi:ss'),'yyyy-mm-dd HH24:mi:ss') - 1800 * 1000 / 1440/60/1000 1.先看看奇葩的表设计:设计表的同学看来很

2015-10-22 前思后想，决定重构表结构，免得这个APP死在数据表设计上

新的设计稿出来了,如下,原来旧的是第二张 ------- 原来的评论级数只有2级,现在是不限,2级的意思是,用户评论该帖是一级,用户的评论能被人评论,这是第2级,评论评论的评论不能够再被评论. 这样的原先数据库表设计很简单,我直接使用表名字做了2级分离,取得时候再对应查找,基本是 hash对应,很快,缺点就是创建的表比较多,用户多了的话,这笔账很恐怖. 可能是因为我同时做服务器和移动端的原因,在之前设计的时候,思维过多地偏向了移动端,移动端我负责android,按照上面的设计思路,

hive --service metastore 出现的问题

Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083 执行命令jps root@hadoopm:/usr# jps1763 ResourceManager1875 NodeManager4854 Jps1400 DataNode1547 SecondaryNameNode2300 RunJar1292 NameNode 将Runjar kill掉,再重启hive --service metastore,就可以了

oracle性能优化之表设计

数据库优化的目标无非是避免磁盘I/O瓶颈.减少CPU利用率和减少资源竞争.为了便于读者阅读和理解,笔者参阅了Sybase.Informix和Oracle等大型数据库系统参考资料,基于多年的工程实践经验,从基本表设计.扩展设计和数据库表对象放置等角度进行讨论,着重讨论了如何避免磁盘I/O瓶颈和减少资源竞争,相信读者会一目了然. 基于第三范式的基本表设计在基于表驱动的信息管理系统(MIS)中,基本表的设计规范是第三范式(3NF).第三范式的基本特征是非主键属性只依赖于主键属性.基于第三范式的数据库

【原创】C#搭建足球赛事资料库与预测平台(6) 赔率数据表设计2

本博客所有文章分类的总目录:[总目录]本博客博文总目录-实时更新开源C#彩票数据资料库系列文章总目录:[目录]C#搭建足球赛事资料库与预测平台与彩票数据分析目录本篇文章开始将逐步介绍使用C#搭建足球赛事资料库与预测平台的相关细节.还是先从数据库开始,从本文开始将逐步对每个核心实体类和数据库设计相关的内容进行讲解,并公布源代码,至于能不能跑起来,看的看个人努力.由于没有时间将所有相关业务都简述清楚,所以也只好将需求和表设计一起进行.本人也是走了很多弯路的.考虑到系统数据表很多,

Oracle优化-表设计

前言绝大多数的Oracle数据库性能问题都是由于数据库设计不合理造成的,只有少部分问题根植于Database Buffer.Share Pool.Redo Log Buffer等内存模块配置不合理,I/O争用,CPU争用等DBA职责范围上.所以除非是面对一个业已完成不可变更的系统,否则我们不应过多地将关注点投向内存.I/O.CPU等性能调整项目上,而应关注数据库表本身的设计是否合理,库表设计的合理性才是程序性能的真正执牛耳者. 合理的数据库设计需要考虑以下的方面: ·业务数据以何种方式表达.如

【原创】C#搭建足球赛事资料库与预测平台(3) 基础数据表设计

本博客所有文章分类的总目录:http://www.cnblogs.com/asxinyu/p/4288836.html 开源C#彩票数据资料库系列文章总目录:http://www.cnblogs.com/asxinyu/p/4329642.html 本篇文章开始将逐步介绍使用C#搭建足球赛事资料库与预测平台的相关细节.还是先从数据库开始,从本文开始将逐步对每个核心实体类和数据库设计相关的内容进行讲解,并公布源代码,至于能不能跑起来,看的看个人努力.数据库很庞大,且采用了XCode

【原创】C#搭建足球赛事资料库与预测平台(4) 比赛信息数据表设计

本博客所有文章分类的总目录:[总目录]本博客博文总目录-实时更新开源C#彩票数据资料库系列文章总目录:[目录]C#搭建足球赛事资料库与预测平台与彩票数据分析目录本篇文章开始将逐步介绍使用C#搭建足球赛事资料库与预测平台的相关细节.还是先从数据库开始,从本文开始将逐步对每个核心实体类和数据库设计相关的内容进行讲解,并公布源代码,至于能不能跑起来,看的看个人努力.由于没有时间将所有相关业务都简述清楚,所以也只好将需求和表设计一起进行.本人也是走了很多弯路的.考虑到系统数据表很多,

【原创】C#搭建足球赛事资料库与预测平台(5) 赔率数据表设计1

本博客所有文章分类的总目录:http://www.cnblogs.com/asxinyu/p/4288836.html 开源C#彩票数据资料库系列文章总目录:http://www.cnblogs.com/asxinyu/p/4329642.html 本篇文章开始将逐步介绍使用C#搭建足球赛事资料库与预测平台的相关细节.还是先从数据库开始,从本文开始将逐步对每个核心实体类和数据库设计相关的内容进行讲解,并公布源代码,至于能不能跑起来,看的看个人努力.由于没有时间将所有相关业务都简述

Oracle数据库表设计时的注意事项

表是Oracle数据库中最基本的对象之一.万丈高楼从平地起,这个基础对象对于数据库来说,非常重要.因为其设计是否合理,直接跟数据库的性能相关.从Oracle数据库菜鸟到数据库专家这个过程中,在表设计与管理上,或多或少,会犯一些错误.笔者今天就谈谈自己在这方面的经验与教训,或许能够给大家一些警示作用. 表是Oracle数据库中最基本的对象之一.万丈高楼从平地起,这个基础对象对于数据库来说,非常重要.因为其设计是否合理,直接跟数据库的性能相关.从Oracle数据库菜鸟到数据库专家这个过程中,在表设计

（转载）数据库表设计-水电费缴费系统（oracle）

水电缴费管理系统数据表设计 SQL建表脚本: 1 --建表 2 --管理人员表 admin 3 create table admin( 4 admin_id varchar2(3) not null, 5 admin_loginname varchar2(8) not null, 6 admin_password varchar2(6) not null, 7 admin_username varchar2(4) not null, 8 constraint pk_admin primary k

PHP 开发 APP 接口学习笔记与总结 - APP 接口实例 [5] 版本设计分析及数据表设计

APP 版本升级以及 APP 演示 ① 版本升级分析以及数据表设计 ② 版本升级接口开发以及 APP 演示 /** * version_upgrade 版本升级信息表 */ CREATE TABLE `version_upgrade` ( `id` ) unsigned NOT NULL AUTO_INCREMENT, `app_id` ) unsigned ' COMMENT '客户端设备id 1安卓pad 2安卓手机 3ios手机 4iospad', `version_id` ) unsig

ERP开发分享 1 数据库表设计

这是我的ERP设计经验分享系列,今天讲的是数据库的表设计(1),主要阐述: 1.单字段的主键:2.使用int32作为主键类型:3.使用版本字段处理乐观锁定:4.生效字段标明是否允许“被使用”:5.锁定字段处理悲观锁定:6.行唯一字段处理分布式应用:

巴特西