Hadoop简单介绍

声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出。一起学习一起进步。

转载请注明:http://blog.csdn.net/my_acm

1、

数据的增长远远超过了磁盘的读取速度。传统的数据存储方式和分析方式变得不再适用于大数据的处理。

Hadoop分为两大核心技术。HDFS(HadoopDistributed File System-分布式hadoop文件处理系统)和MapReduce(分为Map-数据映射等,Reduce-数据合并等)。

基于HDFS的分布式文件系统。数据能够分布在一个非常广的不同的范围内(当然也能够是集中式的数据)进行并行处理分析。而处理分析的能力则用MapReduce算法进行分析。也由于这样的分布式的系统。是的其能在不是非常高性能的机器上执行。所以成本并不高。

2、

为什么传统的RDBMS不能适应大数据处理呢?

首先来看看以下的一张表格:

更重要的是MapRuduce和关系型数据库之间它们处理的数据集的结构化数据的数量。

所谓结构化数据就是拥有准确定义的实体化数据,符合某种提前定义模式。

而通常的半结构化数据和非结构化数据则不能在RDBMS上非常好的处理,相反MapRduce的却能非常好的处理这些非结构化数据。

当然随着时间的推移RDBMS(借鉴MapReduce的思想)和MapReduce之间的差别可能会越来越模糊。

基于MapReduce的两个重要高级查询语言Pig和Hive。

3、

Hadoop是DougCutting——Apache Lueene创始人——开发的使用广泛的文本搜索库。尽管Hadoop最出名的事MapReduce和HDFS可是它还有其它一些配套服务。

最新文章

  1. 《PHP字符串函数》笔记
  2. WPF Prism
  3. CUBRID学习笔记 22 插入数据
  4. OpenGL的gluPerspective和gluLookAt的关系[转]
  5. WP8_读写XML
  6. HDU 3696 Farm Game(dp+拓扑排序)
  7. Hibernate4.x之Session
  8. POJ 2442 Squence (STL heap)
  9. sql子查询
  10. 强一致性hash实现java版本及强一致性hash原理
  11. SQL to JSON Data Modeling with Hackolade
  12. C++ 函数模板的返回类型如何确定?
  13. 第0章 概述及常见dos命令
  14. pip解决超时问题(timeout)
  15. ip啊
  16. 腾讯云CVM服务器怎么建网站
  17. 给WebAPI的REST接口服务添加测试页面(一)
  18. 29个酷炫的Firefox配置参数
  19. Linux下的ASLR(PIE)内存保护机制
  20. http状态码(status_codes)

热门文章

  1. git 使用流程(使用代码库github)
  2. 文件的上传Commons FileUpload(web基础学习笔记十六)
  3. jQuery之前端国际化jQuery.i18n.properties[转]
  4. 怎样以Root方式执行Xcode
  5. eclipse svn插件
  6. write()和prinln()的区别?
  7. HDUOJ------1711Number Sequence
  8. php 内存管理
  9. Outlook如何定时发邮件
  10. Windows Server 2008的远程控制修改端口,谨防非法远程连接