大数据大数据,身边很多朋友都在谈大数据,Big Data!!!

到底是什么,用来干嘛的,也很少有人说得出一二,那今天开始就简单说说这一二事吧

hadoop 的来源:是作者女儿的一个玩具 - 一只黄色的大象

发音 /hadu:p/ 
在Apache旗下作为一个开源项目
它不是云计算,却是云计算中的一部分,属于大数据这块
hadoop是一个开源的分布式计算系统
 
hadoop所解决的问题:
     海量数据存储 - HDFS (分布式文件系统,分布在多台电脑上进行存储)可以理解为一个大型的网盘,例如百度网盘,115网盘,可以进行上传下载
     海量数据分析 - MapReduce (分布式的计算模型)有多台机子进行数据的分析,例如原来工地有一个人搬砖,一次性搬100块砖头,后来分为100个人,每个人搬10块,同时会有老大工头监控这些小弟
 
hadoop擅长日志分析
 
现在的淘宝使用Stome来进行实时推荐
 
凌晨分析后的产生有用的数据,分为冷数据和热数据,冷数据存放在MyFox中(Mysql集群),热数据存放在Prom中(HBase集群)
 
实时流数据处理使用Storm,可以用于购买商品时实时推送推荐商品
Hive可以用于附近认识的人,朋友圈你可能认识的人,校内网(从网,或者说人人网)中的推荐认识的好友
 
现在hadoop已经出到了2,但是很多公司还是会基于1.0版本,因为稳定,也省去了迁移的风险
 
生态圈,各种掉渣天高大上(非常喜欢zookeeper)
 
hadoop的安装有2种
本地模式:使用eclipse进行调试,只有一个map,只有一个reduce
伪分布式:模拟多台机子,进行调试
集群模式:生产环境
 
 
 
 

最新文章

  1. phpunit学习 3:
  2. Jquery 设置style:display 通过ID隐藏区域
  3. 10个经典的Java main 方法面试题
  4. DIV+CSS相对IE8的兼容问题
  5. kinect
  6. C++习题 虚函数-计算图形面积
  7. XSLT 调用外部程序
  8. Nopcommerce架构浅谈之架构层次
  9. 关于myeclipse8.6的优化设置
  10. Yii2设计模式——简单工厂模式
  11. server.xml引入子文件配置(tomcat虚拟主机)
  12. 沙箱机制(Sandboxie)
  13. vue-11-路由嵌套-参数传递-路由高亮
  14. 【ARTS】01_20_左耳听风-20190325~20190331
  15. Python 如何删除列表中的空值
  16. vscode代码保存时自动格式化成ESLint风格(支持VUE)
  17. 全网最全的Windows下Anaconda2 / Anaconda3里Python语言实现定时发送微信消息给好友或群里(图文详解)
  18. MatLab 2014a编译jar包时mcc无法使用的问题
  19. VS2013发布网站详细步骤
  20. 基于OpenGL编写一个简易的2D渲染框架-12 重构渲染器-BlockAllocator

热门文章

  1. android开发布局文件imageview 图片等比例缩放:
  2. Xml序列化、反序列化帮助类
  3. 自己写的表格插件autotable
  4. jquery 监控文本框键盘事件(回车事件),附常用keycode值。
  5. python模块基础之json,requeste,xml,configparser,logging,subprocess,shutil。
  6. DOJO官方API翻译或解读-dojo/_base/lang --hitch()
  7. Oracle执行计划与统计信息的一些总结
  8. 用Gradle构建时,将密码等敏感信息放在build.gradle之外
  9. iOS设计模式之迭代器模式
  10. IOS 网络浅析-(五 xml解析)