Spark—RDD介绍
2024-09-02 13:07:50
Spark—RDD
1、概念介绍
RDD(Resilient Distributed Dataset):弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。
官方定义还是比较抽象,个人理解为:它本质就是一个类,屏蔽了底层对数据的复杂抽象和处理,为用户提供了一组方便数据转换和求值的方法。
2、RDD特点
1)不可变:弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合
2)可分区:RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同Worker节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)
3)弹性:1>存储弹性:内存与磁盘的自动切换 2>容错弹性:数据丢失可以自动恢复
3>计算弹性:计算出错重试机制 4>分片弹性:根据需要重新分片
3、在计算数据中RDD都做了什么:
主要流程:
RDD创建——>RDD转换——>RDD缓存——>RDD行动——>RDD的输出
spark计算的核心就在RDD转换、缓存、行动上。
4、Spark wordcount 解释RDD
最新文章
- Topshelf 支持Mono 扩展Topshelf.Linux
- ecshop随机分类
- python_way,day4 内置函数(callable,chr,随机验证码,ord),装饰器
- Java [Leetcode 168]Excel Sheet Column Title
- 十款PHP开发框架对比
- Android的minSdkVersion,targetSdkVersion,maxSdkVersion
- OpenMeetings(3)----启动顺序解析
- Android Studio代码自动提示无效
- 升级版本后报这个异常 : org.springframework.beans.factory.NoUniqueBeanDefinitionException
- Neovim中NERDTree等多处cursorline不高亮
- linux 7.2安装扩展redis
- QWaitConditioin的思考1
- Mac上Homebrew的安装
- scala中隐式转换之总结
- Vue系列之 =>; 通过vue-resource发起ajax请求
- redash docker 运行
- JAVA数据类型(转载)
- 2018.09.27 codeforces618F. Double Knapsack(抽屉原理+构造)
- spark搭建部署
- glob 遍历函数