1.hadoop是什么?

开源的分布式存储和分布式计算平台.

2.hadoop组成?

HDFS:分布式文件存储系统,存储海量数据.
Mapreduce:并行处理框架,实现任务分配和调度.

3.hadoop可以用来做什么?

搭建大型数据仓库,分析海量日志,存储,统计等.

4.Zookeeper 分布式协作服务

解决分布式环境下的数据管理:
统一命名,状态同步,集群管理,配置同步

5.HIVE 数据仓库(离线分析)

HQL用于运行存储在Hadoop上的查询语句,Hive让不熟悉MapReduce开发人员也能编写数据查询语句,然后这
些语句被翻译为Hadoop上面的MapReduce任务

6.Pig ad-hoc脚本(离线分析)

7.Sqoop 数据ETL/同步工具

用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是
Mapreduce程序,充分利用了MR的并行化和容错性

8.Flume 日志收集工具

个可扩展、适合复杂环境的海量日志收集系统

9.Mahout 数据挖掘算法库

经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法

最新文章

  1. ABP理论学习之Javascript API(理论完结篇)
  2. 兼容版本实现 XMLHttpRequest
  3. Mac Pro 使用 ll、la、l等ls的别名命令
  4. windows 下安装 mysql
  5. linux red hat 安装svn
  6. Laxcus大数据管理系统2.0(9)- 第七章 分布任务组件
  7. codeforces 696C PLEASE 概率dp+公式递推+费马小定理
  8. 2015南阳CCPC F - The Battle of Guandu 多源多汇最短路
  9. Neighbour table overflow --- arp表溢出
  10. UITableView系列(1)---Apple缓存池机制
  11. HipHop算法:利用微博互动关系挖掘社交圈
  12. C#复习三(Day 22)
  13. 集团财务分析BI项目中的财务系统环境
  14. IPv6,AppStore 审核不是唯一选择它的原因
  15. js面向对象之继承那点事儿根本就不是事
  16. jquery楼层效果
  17. Appium测试,定位H5元素(HTML5)
  18. Springboot 2.0.x 引入链路跟踪Sleuth及Zipkin
  19. Urllib库及cookie的使用
  20. 【微软版本】redis 安装启动及设置密码<windows>

热门文章

  1. matlab 只安装部分产品
  2. Excel中筛选两个表中相同的数据和快速填充一列的公式
  3. Node.js之判断字符串中是否包含某个字符串
  4. 定时任务、js定时任务
  5. java复制对象之深拷背
  6. pd.ExcelWriter(to_excel)保存结果到已存在的excel文件中
  7. CRT 上传下载文件
  8. 029_H5打包编译成IOS
  9. javascript – Node.js请求CERT_HAS_EXPIRED
  10. 重装系统之前需要做的checklist