Spark编程模型(中)
2024-10-20 11:32:55
创建RDD
- 方式一:从集合创建RDD
- makeRDD
- Parallelize
注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。
- 方式二:读取外部存储创建RDD
Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。
1. 多文件格式支持:
2. 多文件系统支持:
1)本地文件系统
2)S3
3)HDFS
3. 数据库
1)JdbcRDD
2)spark-cassandra-connector(datastax/spark-cassandra-connector)
3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)
4)Elasticsearch-Hadoop
控制操作
1. persist操作,可以将RDD持久化到不同层次的存储介质,以便后续操作重复使用。
1)cache:RDD[T]
2)persist:RDD[T]
3)Persist(level:StorageLevel):RDD[T]
2. checkpoint
将RDD持久化到HDFS中,与persist操作不同的是checkpoint会切断此RDD之前的依赖关系,而persist依然保留RDD的依赖关系。
注意:控制操作的细节会在后续章节专门讲解
转换操作
- 基本转换操作1
(1)RDD的转化操作是返回新的RDD的操作;
(2)我们不应该把RDD看作存放着特定数据的数据集,而最好把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。
- 基本转换操作2
action操作
以上就是博主为大家介绍的这一板块的主要内容,这都是博主自己的学习过程,希望能给大家带来一定的指导作用,有用的还望大家点个支持,如果对你没用也望包涵,有错误烦请指出。如有期待可关注博主以第一时间获取更新哦,谢谢!
最新文章
- Asp.net MVC5 框架揭秘 S412 实例解析 – 绝妙的扩展 模式的胜利
- WEB框架
- iOS自动布局进阶用法
- iOS开发之Pch预编译文件的创建
- 一元线性回归模型与最小二乘法及其C++实现
- 安卓开发错误:The type android.support.v4.app.TaskStackBuilder$SupportParentable cannot be resolved.
- Unity3D 之3D游戏入门Hello world(一)
- [转]SGI STL 红黑树(Red-Black Tree)源代码分析
- 利用python进行数据分析之数据规整化
- hdu 2546 饭卡 (01背包)
- svn代码管理的使用工作流程
- 自学Python1.1-简介
- C# 传统四舍五入保留两位小数(网上流传好多错误的版本)
- Windows Server 2008 R2提示api-ms-win-crt-runtime-l1-1-0.dll 丢失解决方法
- 动态渲染页面爬取-Selenium &; Splash
- UWB DWM1000 跟随小车原理--- 原理代码解析
- JavaScript基础笔记(十)表单脚本
- 报错libtest: error while loading shared libraries: libuv.so.1: cannot open shared object file: No such file or directory
- PHP MVC单入口
- windows远程访问ubuntu下的jupyter notebook必要配置
热门文章
- Python:列表反序和解析
- js字符串API
- Matlab数据类型的转换
- [多路dp]更难的矩阵取数问题
- N72烧写
- JavaScript学习系列5 ---ES6中的var, let 和const
- 解决java.lang.IllegalArgumentException: No converter found for return value of type: class java.util.ArrayList问题
- Google Coral Edge TPU USB加速棒上手体验
- Cogs 6. 线型网络
- 洛谷P3396 哈希冲突(分块)