1. 有句话说的好“大数据胜于好算法”
  2. 硬盘存储容量在不断提升的同时,访问速度(硬盘数据读取速度)却没有同步增长;1990年,访问全盘需要5分钟,20年后,需要2.5小时
  3. 不同的业务大数据,存储在一套HDFS上,但常常分析工作是在不同时间点进行的,所以彼此之间干扰并不太大
  4. MP每次查询数据需要处理整个数据集,看是采用了一种蛮力方法,但却反映了它的能力
  5. MP更适合那种没有用户在现场等待查询结果的离线使用场景
  6. 为什么不使用RDBMS,而使用Hadoop
    1. 寻址时间远远大于数据传输时间
    2. MP比较适合批处理方式处理整个数据集
    3. RDBMS比较适合点查询
    4. RDBMS在写数据时对数据范式进行校验,MP在读数据时才对数据进行解释
  7.   高性能计算(High Performance Computing,HPC):集群计算资源,数据资源存放在SAN上;如果计算数据量庞大,很多计算节点就会因为网络带宽的瓶颈问题而不得不闲下来等数据
  8. Hadoop尽量在计算节点上存储数据,以实现数据的本地快速访问
  9. 在大规模分布式计算环境下,协调各个进程的执行是一个很大的挑战,最困难的是合理处理系统的部分失效问题(在不知道一个远程进程是否挂了的情况下)同时还需要继续完成整个计算
  10. Hadoop采用无共享模式,各个人物之间是彼此独立的,从程序员角度来看,任务的执行顺序无关紧要。

最新文章

  1. 【STL】next_permutation的原理和使用
  2. 三层+MVC导出Excel(2)
  3. mysql grant all on *.* to xxx@'%' 报Access denied for user 'root'@'localhost'
  4. HUDSON(Java开发的一种持续集成工具)
  5. EasyUI queryParams属性 在请求远程数据同时给action方法传参
  6. mysql IN 比等价的OR写法效率更高
  7. Linux中变量$#,$@,$0,$1,$2,$*,$$,$?的含义(转载)
  8. java实现大数加法、乘法(BigDecimal)
  9. ios蓝牙开发(四)BabyBluetooth蓝牙库
  10. python 多线程一(lock)
  11. node读写json文件(进阶)
  12. CodeForces 610D Vika and Segments
  13. sql unique约束详解
  14. tp5上传图片添加永久素材到微信公众号
  15. Benchmark Test On Android Devices
  16. Offcie2013 无法显示 Aurora解决方法
  17. EffectiveC++笔记 目录
  18. PyCharm 怎么查看 Python 的变量类型和变量内容
  19. [ Laravel 5.5 文档 ] 快速入门 —— 目录结构篇
  20. JAVA程序调试

热门文章

  1. unity之shader
  2. crontab使用方法
  3. SDU暑期集训排位(8)
  4. 牛客国庆集训派对Day6 A Birthday 费用流
  5. POJ-3261-Milk Patterns-二分+哈希
  6. 2018 Multi-University Training Contest 3(部分题解)
  7. Linux_Day001-002章常用命令
  8. MySQL二进制日志挖掘器BinlogMiner 1.0发布了。
  9. 搜索入门练习题9 LETTERS 题解
  10. Sticks(剪枝+BFS)