1.大数据的概述

 大数据:巨量数据、海量数据,首先在数据的量上达到一定的规模,首先是人或者计算机在不合理时间内是不能够实现的数据量。

2.特点:数据量比较大,数据类型多样化、处理速度问题

3.大数据平台分为硬件和软件

4.hadoop出现:数据的不断加大,单机的计算机无法在硬盘、网络IO,计算机的CPU,内存存储上是无法达到的情况下出现的一种处理方式。

5.hadoop是Apache基金会所开发的分布式的基本跨架,可以在不了解分布式的情况下开发分布式的程序,充分的利用集群的高速运算和存储。

6.解决的问题:大数据存储大,数据分析是hadoop的两大核心,HDFS和mapreduce

7.HDFS:可扩展、容错、高性能的分布式文件管理文件系统,异步开发一次开发多次使用,主要用于存储。

8.mapreduce为分布式的计算框架,主要包含map和reduce过程复杂对HDFS中的数据进行计算。

9.hadoop的优点:高可靠性、高性能、高扩展性、高效性、容错性、低成本。

HDFS


1.hdfs是一个分布式的文件系统,可以进行创建、删除、移动、重命名文件或者文件夹与linux的文件系统类似。

2.它由多个节点组成:nameNode(一个)、DataNode(多个)

nameNode :只有一个,用于nebula提供元数据的服务,

secondary Namenode:名称节点,帮助节点用与整合和恢复

DataNode:他为hdfs提供真正的存储。

注意:在hadoop中nameNode只有一个,在hadoop2.X之后,有了很大的改善

3.存储文档在HDFS中。被分割成块,然后这些块以流的方式复制到各个节点,存储在不同的机架上,默认块的大小是128MB,备份的数目,这是可以用客户设置的。内部使用网络通信

4.NameNode通过在HDFS机架中单独机架上运行,负责文件系统的客户端请求。

最新文章

  1. .net WebClient发送请求实例:
  2. 1063. Set Similarity (25)
  3. mfc和win32区别
  4. linux下能ping ip不能ping域名详解
  5. JAVA调用c/c++代码
  6. 快看Sample代码,速学Swift语言(2)-基础介绍
  7. Mybatis执行BatchExecutor(四)
  8. [ArcGIS API for JavaScript 4.8] Sample Code-Get Started-layers简介
  9. css文字超出一行用点表示
  10. tomcat 优化建议
  11. c#pc上测试微信端企业公众商城个人中心链接的工具JMeter
  12. 访问权限,public private protected
  13. java框架之SpringBoot(2)-配置
  14. 在myeclipse中使用log4j记录日志
  15. ubuntu jdk 安装
  16. 教你一步步composer安装Magento2.3
  17. jQuery中prop和attr区别
  18. const typedef 和指针的问题(这里必须初始化的才初始化了,不必须的则没有初始化)
  19. 10.18号java课后作业代码
  20. linux rinetd 端口转发部署

热门文章

  1. php安装zendDebug
  2. HDU 4173 Party Location(计算几何,枚举)
  3. 关于Maven报错的一些解决办法(别处贴的)
  4. jQuery对表格进行类样式
  5. elasticsearch index 之 create index(二)
  6. spark读写mysql
  7. 用css让元素隐藏的几种办法
  8. 小米开源文件管理器MiCodeFileExplorer-源码研究(9)-入口分析
  9. 关于Blocking IO,non-Blokcing IO,async IO的区别和理解
  10. php课程 13-43 mysql的数据结构是什么