1.1 什么是HADOOP

  1. HADOOP是apache旗下的一套开源软件平台
  2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
  3. HADOOP的核心组件有
    1. HDFS(分布式文件系统)
    2. YARN(运算资源调度系统)
    3. MAPREDUCE(分布式运算编程框架)
  4. 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈

国内外HADOOP应用案例介绍

1、HADOOP应用于数据服务基础平台建设

2、/HADOOP用于用户画像

3、HADOOP用于网站点击流日志数据挖掘

金融行业: 个人征信分析

证券行业: 投资模型分析

交通行业: 车辆、路况监控分析

电信行业:用户上网行为分析

...

总之:hadoop并不会跟某种具体的行业或者某个具体的业务挂钩,它只是一种用来做海量数据分析处理的工具

 HADOOP生态圈以及各组成部分的简介

重点组件:

HDFS:分布式文件系统

MAPREDUCE:分布式运算程序开发框架

HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库

ZOOKEEPER:分布式协调服务基础组件

Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架

最新文章

  1. Android 启动后页面跳转
  2. C/C++面试知识点总结
  3. ZabbixCPU温度监视-Centos
  4. iNeedle日志下载功能问题
  5. 【leetcode】Scramble String
  6. python some install tips
  7. Hadoop2.2.0 手动切换HA环境搭建
  8. [改善Java代码]不要覆写静态方法
  9. String 转Clob
  10. 我也谈javascript正则匹配
  11. Docker网络——单host网络
  12. Python--开发简单爬虫
  13. C#模拟POST表单提交 --- WebClient
  14. webpack通过postcss-loader添加浏览器前缀
  15. POJ3301 Texas Trip 计算几何、随机化贪心
  16. Selenium 获取文本信息方法+select(定位)
  17. jmeter --自动化badboy脚本开发技术
  18. [转载][翻译]Go的50坑:新Golang开发者要注意的陷阱、技巧和常见错误[2]
  19. PCB直角走线的影响
  20. Oracle中实现dblink的作法

热门文章

  1. 洛谷 P3935 Calculating
  2. JAVA常用知识总结(一)
  3. 亚马逊左侧菜单延迟z三角 jquery插件jquery.menu-aim.js源码解读
  4. 为localhost添加https
  5. AJPFX浅谈Java性能优化之finalize 函数
  6. JAVA Map的使用
  7. BOM学习-javascript计时器小结
  8. 关于对象.style currentstyle 的区别
  9. iOS开发中的HTML解析
  10. vim下ctrl + s 僵死问题的解决