Hadoop点滴-外围概念
2024-10-21 09:30:47
- 有句话说的好“大数据胜于好算法”
- 硬盘存储容量在不断提升的同时,访问速度(硬盘数据读取速度)却没有同步增长;1990年,访问全盘需要5分钟,20年后,需要2.5小时
- 不同的业务大数据,存储在一套HDFS上,但常常分析工作是在不同时间点进行的,所以彼此之间干扰并不太大
- MP每次查询数据需要处理整个数据集,看是采用了一种蛮力方法,但却反映了它的能力
- MP更适合那种没有用户在现场等待查询结果的离线使用场景
- 为什么不使用RDBMS,而使用Hadoop
- 寻址时间远远大于数据传输时间
- MP比较适合批处理方式处理整个数据集
- RDBMS比较适合点查询
- RDBMS在写数据时对数据范式进行校验,MP在读数据时才对数据进行解释
- 高性能计算(High Performance Computing,HPC):集群计算资源,数据资源存放在SAN上;如果计算数据量庞大,很多计算节点就会因为网络带宽的瓶颈问题而不得不闲下来等数据
- Hadoop尽量在计算节点上存储数据,以实现数据的本地快速访问
- 在大规模分布式计算环境下,协调各个进程的执行是一个很大的挑战,最困难的是合理处理系统的部分失效问题(在不知道一个远程进程是否挂了的情况下)同时还需要继续完成整个计算
- Hadoop采用无共享模式,各个人物之间是彼此独立的,从程序员角度来看,任务的执行顺序无关紧要。
最新文章
- 【STL】next_permutation的原理和使用
- 三层+MVC导出Excel(2)
- mysql grant all on *.* to xxx@'%' 报Access denied for user 'root'@'localhost'
- HUDSON(Java开发的一种持续集成工具)
- EasyUI queryParams属性 在请求远程数据同时给action方法传参
- mysql IN 比等价的OR写法效率更高
- Linux中变量$#,$@,$0,$1,$2,$*,$$,$?的含义(转载)
- java实现大数加法、乘法(BigDecimal)
- ios蓝牙开发(四)BabyBluetooth蓝牙库
- python 多线程一(lock)
- node读写json文件(进阶)
- CodeForces 610D Vika and Segments
- sql unique约束详解
- tp5上传图片添加永久素材到微信公众号
- Benchmark Test On Android Devices
- Offcie2013 无法显示 Aurora解决方法
- EffectiveC++笔记 目录
- PyCharm 怎么查看 Python 的变量类型和变量内容
- [ Laravel 5.5 文档 ] 快速入门 —— 目录结构篇
- JAVA程序调试