官方讲解:

Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。

个人理解:

Hadoop就是一些模块的相对简称!! 那Hadoop到底指的哪些模块??以及他们是干嘛的??

Hadoop内的一些模块指的是这些:

Hadoop Common:支持其他Hadoop模块的常用工具。

Hadoop 分布式文件系统(HDFS):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。

Hadoop YARN:作业调度和集群资源管理的框架。

Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统。

而他们是干什么的?如下:

(1)hdfs:就是一个文件系统,可以存储海量的数据。

(2)mapreduce:从海量的数据中,通过一定的算法,计算出有用信息。

(3)hive:就是sql语句解释器,接收用户输入的sql语句,然后将该sql语句翻译成复杂的mapreduce程序,并发布到mr集群中进行运算,也是计算出有用的信息。

(4)hbase:mysql是基于linux/window的文件系统的数据库,而hbase就是基于hdfs文件系统的数据库。

(5)flume:就是一个水泵,将水从一个源水坑,抽到到另一个目的水坑中。当然flume抽的是 “数据”。将数据从一个文件中抽取到另一个文件中。

(6)sqoop:将hdfs文件系统的文件,导出到linux文件系统的文件中。就像“豌豆荚”应用程序,实现 android系统与window系统之间文件的导入导出。

(7)ooize/azkaban:一个完整的业务(work)是由多个任务(task)相互配合完成的。该组件就是负责协调各个task的执行顺序。

**** 其中重点组件如下(重点!!这是你该学的!)****:

HDFS:分布式文件系统

MAPREDUCE:分布式运算程序开发框架

HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库

ZOOKEEPER:分布式协调服务基础组件

Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架

Hadoop的核心组件( 注意!! 是核心组件! 就是最重要的几个东西!! )有:

HDFS(分布式文件系统)

YARN(运算资源调度系统)

MAPREDUCE(分布式运算编程框架)

最新文章

  1. webgl画个点
  2. C++虚方法(虚函数)随笔
  3. Taylor定理证明
  4. leetcode 146. LRU Cache ----- java
  5. infoWindowRenderer之个人见解
  6. leetcode@ [146] LRU Cache (TreeMap)
  7. LeetCode100:Same Tree
  8. 《SDN核心技术剖析和实战指南》第一章小结
  9. 计算机网络基础——OSI七层网络模型
  10. Django中Model-Form验证
  11. MySQL--Skip GTID CAP
  12. centos 7 aufs
  13. mysql的下载与安装
  14. 第三节:Windows下检出项目和提交项目
  15. promise对象的使用
  16. Python(28)---模块和包的基本概念
  17. npm包管理工具在一般项目中的应用方法
  18. Teamwork(The first day of the team)
  19. zoj 3229 上下界网络最大可行流带输出方案
  20. [19/05/02-星期四] GOF23_行为型模式(状态模式、观察者模式、备忘录模式)

热门文章

  1. Linux进阶之find命令、xshell速度慢的解决和Linux警告音的关闭
  2. VS 中的 lib 和 dll 的区别和使用
  3. 树莓派3B+常用操作
  4. Relay外部库使用
  5. TensorFlow实现多层感知机函数逼近
  6. MindSpore网络模型类
  7. MindSpore数据集mindspore::dataset
  8. Docker Context基本原理
  9. NOIP2018初赛普及组原题&题解
  10. 一篇文章通俗易懂的让你彻底理解 Java 注解