Hadoop点滴-外围概念

有句话说的好“大数据胜于好算法”
硬盘存储容量在不断提升的同时，访问速度（硬盘数据读取速度）却没有同步增长；1990年，访问全盘需要5分钟，20年后，需要2.5小时
不同的业务大数据，存储在一套HDFS上，但常常分析工作是在不同时间点进行的，所以彼此之间干扰并不太大
MP每次查询数据需要处理整个数据集，看是采用了一种蛮力方法，但却反映了它的能力
MP更适合那种没有用户在现场等待查询结果的离线使用场景
为什么不使用RDBMS，而使用Hadoop
1. 寻址时间远远大于数据传输时间
2. MP比较适合批处理方式处理整个数据集
3. RDBMS比较适合点查询
4. RDBMS在写数据时对数据范式进行校验，MP在读数据时才对数据进行解释
　　高性能计算（High Performance Computing，HPC）：集群计算资源，数据资源存放在SAN上；如果计算数据量庞大，很多计算节点就会因为网络带宽的瓶颈问题而不得不闲下来等数据
Hadoop尽量在计算节点上存储数据，以实现数据的本地快速访问
在大规模分布式计算环境下，协调各个进程的执行是一个很大的挑战，最困难的是合理处理系统的部分失效问题（在不知道一个远程进程是否挂了的情况下）同时还需要继续完成整个计算
Hadoop采用无共享模式，各个人物之间是彼此独立的，从程序员角度来看，任务的执行顺序无关紧要。

巴特西

Hadoop点滴-外围概念

最新文章

热门文章