MySql的元数据以及HDFS上数据的关系

元数据在DBS和TBLS上 (SD_ID)

1 首先通过hive创建一个表table_test

在hdfs的存储路径会生成相应的表

TBLS 也会更新内容进行记录

2 通过hive插入insert一条数据

 会走一遍MR,数据产生变化后

TAB_COL_STATS有记录改变(CS_ID)、(TBL_ID)

3 通过hdfs 直接向hive的warehouse上传数据到表中

  hadoop fs -put test_table01.txt  /user/hive/warehouse/table_test 

(就是通过不用hive对表添加数据)

 使用select * from table_test

 可以查询到数据,但这个时候使用select count(1)

 对表进行查询返回的结果不准确

 因为没有走MR,Hive不知道数据的变化

 desc formatted 表 查询表信息

 numFiles 和numRows 这两个参数

 并不会对表进行记录,所以查询结果都为0

4 如果通过hive的 load data 上传就会记录

 numFiles和numRows的值

 当这两个值不正确或不一致的时候

 在去用count(1)查询的话

 则会通过MR进行纠错

5 如果都不能保证每次上传数据都通过hive

 我们可以通过刷新元数据的方式避免错误

 ANALYZE  TABLE  COMPUTE STATISTICS

 

 

最新文章

  1. EndNote(一)之基本介绍
  2. centos7安装mysql5.7
  3. Linux 使用本地yum源及软件包管理
  4. http 301和302的区别
  5. DES加密算法
  6. PyCharm使用技巧记录(一)如何查看变量
  7. web02--jsp数据传递
  8. Scala-逻辑判断
  9. HTTP -> Asp.net (第一篇)
  10. ROOT android 原则。 基于(zergRush)
  11. 编辑器phpstrom的快捷键修改
  12. ReactiveCocoa源码解析(二) Bag容器的代码实现
  13. 使用JdbcTemplate 操作PostgreSQL,当where条件中有timestamp类型时,报错operator does not exist: timestamp w/out timezone
  14. Lodop连续打印内容逐渐偏移怎么办
  15. kotlin集合操作
  16. DZY Loves Math(莫比乌斯反演)
  17. mysql5.7执行sql语句出现only_full_group_by错误
  18. wpf设置某容器透明,而不应用到容器的子元素的方法
  19. Linux Terminal Games
  20. SpringMVC的@RequestParam

热门文章

  1. NSDT可编程3D场景
  2. Java处理正则匹配卡死(正则回溯问题)
  3. Docker工作管理中实用操作
  4. [网鼎杯2020]boom
  5. Vulnhub:PowerGrid-1.0.1靶机
  6. 好用的后台管理模板Bootstrap3
  7. 在Linux中实现打印目录程序遇到问题及解决
  8. JavaWeb 之 Cookie
  9. 看图王 10.9.1.9791 With X64 去广告绿色版
  10. 当越来越多的企业放弃使用FTP,该用什么更好的方式替代?