hadoop功能与用途
2024-10-21 03:21:53
1.hadoop是什么?
开源的分布式存储和分布式计算平台.
2.hadoop组成?
HDFS:分布式文件存储系统,存储海量数据.
Mapreduce:并行处理框架,实现任务分配和调度.
3.hadoop可以用来做什么?
搭建大型数据仓库,分析海量日志,存储,统计等.
4.Zookeeper 分布式协作服务
解决分布式环境下的数据管理:
统一命名,状态同步,集群管理,配置同步
5.HIVE 数据仓库(离线分析)
HQL用于运行存储在Hadoop上的查询语句,Hive让不熟悉MapReduce开发人员也能编写数据查询语句,然后这
些语句被翻译为Hadoop上面的MapReduce任务
6.Pig ad-hoc脚本(离线分析)
7.Sqoop 数据ETL/同步工具
用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是
Mapreduce程序,充分利用了MR的并行化和容错性
8.Flume 日志收集工具
个可扩展、适合复杂环境的海量日志收集系统
9.Mahout 数据挖掘算法库
经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法
最新文章
- ABP理论学习之Javascript API(理论完结篇)
- 兼容版本实现 XMLHttpRequest
- Mac Pro 使用 ll、la、l等ls的别名命令
- windows 下安装 mysql
- linux red hat 安装svn
- Laxcus大数据管理系统2.0(9)- 第七章 分布任务组件
- codeforces 696C PLEASE 概率dp+公式递推+费马小定理
- 2015南阳CCPC F - The Battle of Guandu 多源多汇最短路
- Neighbour table overflow --- arp表溢出
- UITableView系列(1)---Apple缓存池机制
- HipHop算法:利用微博互动关系挖掘社交圈
- C#复习三(Day 22)
- 集团财务分析BI项目中的财务系统环境
- IPv6,AppStore 审核不是唯一选择它的原因
- js面向对象之继承那点事儿根本就不是事
- jquery楼层效果
- Appium测试,定位H5元素(HTML5)
- Springboot 2.0.x 引入链路跟踪Sleuth及Zipkin
- Urllib库及cookie的使用
- 【微软版本】redis 安装启动及设置密码<;windows>;