大数据分析处理架构图
数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性;
计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实时查询;底层的文件系统当然是HDFS独大,也就是Hadoop的底层存储,现在大数据的技术除了微软系的意外,基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基于之上的应用有Hive,Pig Latin,这两个是利用了SQL的思想来查询Hadoop上的数据。

最新文章

  1. Logging with NLog
  2. Java Interview Test
  3. 【转】Web Service单元测试工具实例介绍之SoapUI
  4. locate无法open mlocate.db
  5. win8.1 vs2010 C++环境下 编译Android Adb.exe
  6. 理解SQL Server中的权限体系(下)----安全对象和权限
  7. pthreads 0.1.0 测试报告
  8. SQL整理3
  9. asp.net MVC 路由机制
  10. git 常用使用及问题记录
  11. mariadb集群与nginx负载均衡配置--centos7版本
  12. OpenCV-Python教程9-平滑图像
  13. MVC-Razor视图
  14. 利用SurfaceView显示正弦曲线,仿造示波器
  15. 解析xml文件 selectSingleNode取不到节点
  16. 解决和排查 "必须使用适当的属性和方法修改 User-Agent" 错误时遇到的一些坑
  17. sfc /scannow命令如何能用虚拟光驱完成修复?(xp下的办法)
  18. STM32F10X-定时器/计数器
  19. JNI之String类型
  20. creat-react-app 如何在组件中img的src引入图片路径??

热门文章

  1. 001-centos7安装 笔记本 联想G510
  2. Java并发—线程池框架Executor总结(转载)
  3. 找出n的阶乘末尾有几个零
  4. 面向对象高级编程——使用@property
  5. Django基础(二)_Ajax、csrf伪站请求
  6. 流量分析系统---kafka集群部署
  7. 在控制台中实现“单词竞猜”游戏 C# 猜词游戏
  8. nodejs数据接收body-parser中间件
  9. jQuery带缩略图焦点图插件
  10. 单文件夹下的C程序如何编写Makefile文件