一般来说,分布式数据集的容错性有两种方式:

  1、数据检查点

  2、记录数据的更新

  我们面向的是大规模数据分析,数据检查点操作成本很高:需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源(在内存中复制数据可以减少需要缓存的数据量,而存储到磁盘则会降低应用程序速度)。所以,我们选择记录更新的方式。

但是,如果更新太多,记录更新成本也不低。因此,RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列转换记录下来(即Lineage),以便恢复丢失的分区。

  关于粗粒度,详细见 http://blog.csdn.net/onisland/article/details/5823641

最新文章

  1. iOS 9 强制横屏
  2. [osx] 查看端口被占用
  3. 常用的主机监控Shell脚本
  4. scala的apply方法
  5. \bin\sh.exe:*** Couldn't reserve space for cygwin's heap,Win32 error 0
  6. SQL SERVER 2005如何建立自动备份的维护计划
  7. NOI2005维修数列
  8. SD卡FAT32文件系统格式
  9. Oracle实用技巧
  10. PF_NETLINK应用实例NETLINK_KOBJECT_UEVENT具体实现--udev实现原理
  11. 实验八 sqlite数据库操作
  12. web浏览器中javascript
  13. 4.请求方式为application/json时的接口测试要如何做?
  14. [LeetCode] Zuma Game 题解
  15. 使用selenium webdriver+beautifulsoup+跳转frame,实现模拟点击网页下一页按钮,抓取网页数据
  16. [AH/HNOI2017]大佬
  17. Scala - Tips
  18. Laravel 服务容器、服务提供器、契约实例讲解
  19. linux环境,通过rpm删除mysql包,报错:error reading information on service mysqld: Invalid argument
  20. [IR] XML Compression

热门文章

  1. Android 工程在4.0基础上混淆
  2. HeadFirst Jsp 04 (请求和响应作为servlet)
  3. hdu4430Yukari's Birthday(二分)
  4. list::splice()函数详解
  5. How to install Node.js on Linux
  6. Win7平台下Cocos2d-x环境搭建
  7. HDU 4513 吉哥系列故事——完美队形II
  8. Web Api 在线参考文档
  9. (六)6.4 Neurons Networks Autoencoders and Sparsity
  10. Oracle 11gR2用gpnp profile存放ASM的spfile路径