Spark—RDD

1、概念介绍

RDD(Resilient Distributed Dataset):弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。

官方定义还是比较抽象,个人理解为:它本质就是一个类,屏蔽了底层对数据的复杂抽象和处理,为用户提供了一组方便数据转换和求值的方法。

2、RDD特点

1)不可变:弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合

2)可分区:RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同Worker节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)

3)弹性:1>存储弹性:内存与磁盘的自动切换    2>容错弹性:数据丢失可以自动恢复

3>计算弹性:计算出错重试机制      4>分片弹性:根据需要重新分片

3、在计算数据中RDD都做了什么:

主要流程:

RDD创建——>RDD转换——>RDD缓存——>RDD行动——>RDD的输出

spark计算的核心就在RDD转换、缓存、行动上。

4、Spark wordcount 解释RDD

最新文章

  1. Topshelf 支持Mono 扩展Topshelf.Linux
  2. ecshop随机分类
  3. python_way,day4 内置函数(callable,chr,随机验证码,ord),装饰器
  4. Java [Leetcode 168]Excel Sheet Column Title
  5. 十款PHP开发框架对比
  6. Android的minSdkVersion,targetSdkVersion,maxSdkVersion
  7. OpenMeetings(3)----启动顺序解析
  8. Android Studio代码自动提示无效
  9. 升级版本后报这个异常 : org.springframework.beans.factory.NoUniqueBeanDefinitionException
  10. Neovim中NERDTree等多处cursorline不高亮
  11. linux 7.2安装扩展redis
  12. QWaitConditioin的思考1
  13. Mac上Homebrew的安装
  14. scala中隐式转换之总结
  15. Vue系列之 => 通过vue-resource发起ajax请求
  16. redash docker 运行
  17. JAVA数据类型(转载)
  18. 2018.09.27 codeforces618F. Double Knapsack(抽屉原理+构造)
  19. spark搭建部署
  20. glob 遍历函数

热门文章

  1. YOLOV4各个创新功能模块技术分析(三)
  2. Docker Context基本原理
  3. win10下abd环境配置
  4. 28.qt quick-ListView高仿微信好友列表和聊天列表
  5. 深入解读Redis分布式锁
  6. Centos7 安装 Cacti 1.2
  7. 性能工具之stress工具使用教程(带源码说明)
  8. 【NX二次开发】Block UI 选择表达式
  9. 动态路由及RIP协议
  10. ES6学习笔记之 let与const