Hadoop概念学习系列之分布式数据集的容错性(二十七)
2024-09-01 00:03:42
一般来说,分布式数据集的容错性有两种方式:
1、数据检查点
2、记录数据的更新
我们面向的是大规模数据分析,数据检查点操作成本很高:需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源(在内存中复制数据可以减少需要缓存的数据量,而存储到磁盘则会降低应用程序速度)。所以,我们选择记录更新的方式。
但是,如果更新太多,记录更新成本也不低。因此,RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列转换记录下来(即Lineage),以便恢复丢失的分区。
关于粗粒度,详细见 http://blog.csdn.net/onisland/article/details/5823641
最新文章
- iOS 9 强制横屏
- [osx] 查看端口被占用
- 常用的主机监控Shell脚本
- scala的apply方法
- \bin\sh.exe:*** Couldn't reserve space for cygwin's heap,Win32 error 0
- SQL SERVER 2005如何建立自动备份的维护计划
- NOI2005维修数列
- SD卡FAT32文件系统格式
- Oracle实用技巧
- PF_NETLINK应用实例NETLINK_KOBJECT_UEVENT具体实现--udev实现原理
- 实验八 sqlite数据库操作
- web浏览器中javascript
- 4.请求方式为application/json时的接口测试要如何做?
- [LeetCode] Zuma Game 题解
- 使用selenium webdriver+beautifulsoup+跳转frame,实现模拟点击网页下一页按钮,抓取网页数据
- [AH/HNOI2017]大佬
- Scala - Tips
- Laravel 服务容器、服务提供器、契约实例讲解
- linux环境,通过rpm删除mysql包,报错:error reading information on service mysqld: Invalid argument
- [IR] XML Compression
热门文章
- Android 工程在4.0基础上混淆
- HeadFirst Jsp 04 (请求和响应作为servlet)
- hdu4430Yukari's Birthday(二分)
- list::splice()函数详解
- How to install Node.js on Linux
- Win7平台下Cocos2d-x环境搭建
- HDU 4513 吉哥系列故事——完美队形II
- Web Api 在线参考文档
- (六)6.4 Neurons Networks Autoencoders and Sparsity
- Oracle 11gR2用gpnp profile存放ASM的spfile路径