《大数据技术应用与原理》第二版-第二章大数据处理架构Hadoop
2024-09-20 11:18:33
2.1概述
- Hadoop是Apache旗下的开源分布式计算平台,是基于Java开发的,具有很好的跨平台特性,其中核心文件是MapReduce和HDFS,而HDFS是根据谷歌文件系统GFS开源实现,是面向普通硬件环境的分布式文件系统,具有很好的容错性和很高的读写速度。MapReduce是根据谷歌的MapReduce开源实现的,允许用户在不了解分布式系统底层实现原理的情况下进行并行程序开发。
- 分布式存储、分布式处理
- 高可靠性、高效性、高扩展性、高容错性、成本低、运行在Linux上、支持多种编程语言开发。
2.3安装与使用
- 单机模式:Hadoop默认模式为非分布式(本地模式),无需进行其他配置即可进行运行。非分布式即单Java进程,方便进行调试。
- 伪分布式模式:Hadoop可以在单节点上以伪分布式的方式进行运行,Hadoop进程以分离的Java进程来运行,既可以作为NameNode,也可以作为DataNode,同时,读取HDFS中的文件。
- 分布式模式:使用多个节点构成集群环境运行Hadoop。
- 三种Shell方式区别:
- Hadoop fs 适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
- hadoop dfs 只是用于HDFS文件系统
- hdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS
最新文章
- [自学总结] Unity5.3 API 之 Audio Mixer
- iOS Swift最简单的Animation
- Java-->;利用URL类下载图片
- CentOS6.X安装vsftpd服务
- hdu 5469 Antonidas (dfs+剪枝)2015 ACM/ICPC Asia Regional Shanghai Online
- 四位数码管SH5461AS的问题,arduino学习实测.
- java_设计模式_单例模式_Singleton Pattern(2016-08-04)
- JAVA的四种引用,强弱软虚用到的场景
- 沙湖王 | 用K-均值聚类给女明星们的身材分分类
- asp.net <;% = #区别
- jQuery 去空
- 翻译连载 | 附录 B: 谦虚的 Monad-《JavaScript轻量级函数式编程》 |《你不知道的JS》姊妹篇
- akka-stream与actor系统集成以及如何处理随之而来的背压问题
- nginx正向代理和反正代理区别
- MUD 多人地下城
- Android MediaPlayer架构 -- 前言小知识点(二)
- 5.10 C++内存管理操作符重载
- PHP常量总结
- (转)C#如何加载程序运行目录外的程序集
- clock gating check
热门文章
- MySQL8.0+常用命令
- vmware无法安装vmware authorization&;windows无法启动VMware Authorization Service服务
- 43.QT-访问远程SQLite数据库
- 《Python3 网络爬虫开发实战》开发环境配置过程中踩过的坑
- vmware vsphere client 虚拟机动态添加磁盘
- Linux 文件系统简介(FHS:Filesystem Hierarchy Standard)
- robotframework框架 - 利用RequestsLibrary关键字轻松实现接口自动化!
- mybatis入门视频总结
- 构造函数new运算符进行了哪些操作
- vuex动态引入store modules