上次已经讲了<Hive数据仓库之快速入门一>不记得的小伙伴可以点击回顾一下,接下来我们再讲Hive数据仓库之快速入门二 DQL hive中的order by.distribute by.sort by和cluster by order by 全局排序,只有一个Reduce任务 sort by 只做jubu排序 distribute by 用distribute by 会对指定的字段按照hashCode值对reduce的个数取模,然后将任务分配到对应的reduce中去执行 cluster by
分层设计 ODS(Operational Data Store):数据运营层 "面向主题的"数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取.洗净.传输,也就说传说中的 ETL 之后,装入本层.本层的数据,总体上大多是按照源头业务系统的分类方式而分类的. 一般来讲,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,至于数据的去噪.去重.异常值处理等过程可以放在后面的DWD层来做. DW(Data W
数仓分层 ODS:Operation Data Store原始数据 DWD(数据清洗/DWI) data warehouse detail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表 DWS(宽表-用户行为,轻度聚合) data warehouse service ----->有多少个宽表?多少个字段服务层--留存-转化-GMV-复购率-日活点赞.评论.收藏; 轻度聚合对DWD ADS(APP/DAL/DF)-出报表结果 Application Data Store做分析处理同步