我的hadoop学习之路
2024-10-11 01:38:15
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。
HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。
NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。
NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
- 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
- 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
- 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
- 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
- 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop 学习之Docker 参考:http://www.cnblogs.com/frankliu/p/8303225.html
最新文章
- (三)Maven仓库介绍与本地仓库配置
- Python中的dict和set
- atitit  opencv apiattilax总结 约500个函数 .xlsx
- Wince 6.0 窗口最大化显示
- ServiceStack.OrmLite 笔记
- next permutaion算法
- pandas库学习笔记(一)Series入门学习
- Subline Text默认设置文件Preferences.sublime-settings—Default详解
- UVA 10564 - Paths through the Hourglass (dp)
- UIView不能使用UITableView的Static表格的解决方法
- Python学习笔记8-类的继承 、深度优先、广度优先
- 【剑指offer】q50:树节点最近的祖先
- sql中常见日期获取
- 【R】正态检验与R语言
- eclipse 包 取消代码第一行package包名 自动补全时取消自动引入包名 修改名字 取消引用 自动导入publilc static void main(String[] args) {}
- Linux记录-grafana opentsdb安装
- GIT 分支管理:多人协作
- win10总是2分钟就自动睡眠怎么办 win10系统自动休眠bug怎么解决(转)
- [Python] 05 - Load data from Files
- TypeLoadException: Could not load type 'Microsoft.AspNetCore.Mvc.Internal.IHttpResponseStreamWriterFactory' from assembly 'Microsoft.AspNetCore.Mvc.Core, Version=2.1.2.0 ...