04_Apache Hadoop 生态系统
内容提纲:
1)对 Apache Hadoop 生态系统的认识(Hadoop 1.x 和 Hadoop 2.x)
2) Apache Hadoop 1.x 框架架构原理的初步认识
3) Apache Hadoop 1.x 安装的三种模式
Hadoop 1.x 生态系统
ETL: 提取à转换à加载:从数据库中获取数据,并进行一系列的数据清理和清洗筛选,将合格的数据进行转换成一定的格式数据进行存储,将格式化的数据存储到 HDFS 文件系统上,以供计算框架进行数据分析和挖掘。
格式化数据:
|- TSV 格式:每行数据的每列之间以【制表符 \t 】进行分割
|- CSV 格式:每行数据的每列之间以【逗号】进行分割
Sqoop:将关系型数据库中的数据与 HDFS(HDFS 文件,HBase 中表,Hive 中的表)上的数据进行相互导入导出。
Flume:收集各个应用系统和框架的日志,并将其放到 HDFS 分布式文件系统的相应制定的目录下。
Hadoop 2.x 生态系统
对于分布式系统和框架的架构来说,一般分为两部分:
第一部分:管理层,用于管理应用层的
第二部分:应用层(工作的)
HDFS,分布式文件系统,
NameNode :属于管理层,用于管理数据的存储
SecondaryNameNode:也属于管理层,辅助 NameNode 进行管理
DataNode :属于应用层,用户进行数据的储存,被 NameNode 进行管理,要定时的向 NameNode
进行工作汇报,执行 NameNode 分配分发的任务。
MapReduce ,分布式的并行计算矿建,
JobTracker:属于管理层,管理集群资源和对任务进行资源调度,监控人去的执行。
TaskTracker:属于应用层,执行 JobTracker 分配分发的任务,并向 JobTracker 汇报工作情况。
NameNode,存储文件的元数据,
1)文件名称
2)文件的目录结构
3)文件的属性(权限,副本数,生成的时间)
4)文件à(对应)Block块à(存储在)DataNodes 上
Apache Hadoop 安装部署模式
伪分布模式(Pseudo-Distributed Mode),
1)一台机器上运行所有的 Hadoop 服务(五个守护进程)。
2)我们整个课程,基本上都是使用伪分布式环境(尤其是讲解 MapReduce)
最新文章
- Frida HOOK微信实现骰子作弊
- python利用unrar实现rar文件解压缩
- Newtonsoft.Json中的时间格式详解.
- JVM的生命周期、体系结构、内存管理和垃圾回收机制
- 【processing】小代码
- NSArray和NSMutableArray
- :not(selector)
- DataGuard相同SID物理Standby搭建
- Lombok(1.14.8) - @SneakyThrows
- 改进了UI的界面
- hdu 5501 The Highest Mark(贪心+01背包)
- 常用Java Web 服务器
- C#压缩与解压
- 5.spark弹性分布式数据集
- 旧版本的firefox 下载 和 安装(查找web元素路径) ---web 元素 自动化测试
- 常见Python脚本
- 在极算云安装pytorch0.4.1环境
- C/C++三目运算符
- WordPress版微信小程序2.2.8版发布
- editplus来编写html
热门文章
- 结构体成员管理AVClass AVOption之1AVClass
- 解决android studio引用远程仓库下载慢(转)
- Hibernate集合映射
- c/c++基本数据类型大小
- PRINTDLG 打印对话框操作
- ApiDoc 和 Swagger 接口文档
- Android开发:《Gradle Recipes for Android》阅读笔记(翻译)3.4——Flavor Dimensions
- HDU4771(2013 Asia Hangzhou Regional Contest )
- 《从零开始学Swift》学习笔记(Day 28)——总结使用问号(?)和感叹号(!)
- idea 右下角不显示git分支