创建RDD

  • 方式一:从集合创建RDD
  1. makeRDD
  2. Parallelize

注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。

  • 方式二:读取外部存储创建RDD

  Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。

1.  多文件格式支持:

2.  多文件系统支持:

    1)本地文件系统

    2)S3

    3)HDFS

3.  数据库

    1)JdbcRDD

    2)spark-cassandra-connector(datastax/spark-cassandra-connector)

    3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)

    4)Elasticsearch-Hadoop

控制操作

1.  persist操作,可以将RDD持久化到不同层次的存储介质,以便后续操作重复使用。

    1)cache:RDD[T]

    2)persist:RDD[T]

    3)Persist(level:StorageLevel):RDD[T]

2. checkpoint

  将RDD持久化到HDFS中,与persist操作不同的是checkpoint会切断此RDD之前的依赖关系,而persist依然保留RDD的依赖关系。

  注意:控制操作的细节会在后续章节专门讲解

转换操作

  • 基本转换操作1

  (1)RDD的转化操作是返回新的RDD的操作;

  (2)我们不应该把RDD看作存放着特定数据的数据集,而最好把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。

  • 基本转换操作2

action操作

以上就是博主为大家介绍的这一板块的主要内容,这都是博主自己的学习过程,希望能给大家带来一定的指导作用,有用的还望大家点个支持,如果对你没用也望包涵,有错误烦请指出。如有期待可关注博主以第一时间获取更新哦,谢谢!

最新文章

  1. Asp.net MVC5 框架揭秘 S412 实例解析 – 绝妙的扩展 模式的胜利
  2. WEB框架
  3. iOS自动布局进阶用法
  4. iOS开发之Pch预编译文件的创建
  5. 一元线性回归模型与最小二乘法及其C++实现
  6. 安卓开发错误:The type android.support.v4.app.TaskStackBuilder$SupportParentable cannot be resolved.
  7. Unity3D 之3D游戏入门Hello world(一)
  8. [转]SGI STL 红黑树(Red-Black Tree)源代码分析
  9. 利用python进行数据分析之数据规整化
  10. hdu 2546 饭卡 (01背包)
  11. svn代码管理的使用工作流程
  12. 自学Python1.1-简介
  13. C# 传统四舍五入保留两位小数(网上流传好多错误的版本)
  14. Windows Server 2008 R2提示api-ms-win-crt-runtime-l1-1-0.dll 丢失解决方法
  15. 动态渲染页面爬取-Selenium & Splash
  16. UWB DWM1000 跟随小车原理--- 原理代码解析
  17. JavaScript基础笔记(十)表单脚本
  18. 报错libtest: error while loading shared libraries: libuv.so.1: cannot open shared object file: No such file or directory
  19. PHP MVC单入口
  20. windows远程访问ubuntu下的jupyter notebook必要配置

热门文章

  1. Python:列表反序和解析
  2. js字符串API
  3. Matlab数据类型的转换
  4. [多路dp]更难的矩阵取数问题
  5. N72烧写
  6. JavaScript学习系列5 ---ES6中的var, let 和const
  7. 解决java.lang.IllegalArgumentException: No converter found for return value of type: class java.util.ArrayList问题
  8. Google Coral Edge TPU USB加速棒上手体验
  9. Cogs 6. 线型网络
  10. 洛谷P3396 哈希冲突(分块)