ation算子通过sparkContext执行提交作业的runJob,触发rdd的DAG执行

(foreach)

foreach(f) 会对rdd中的每个函数进行f操作,下面的f操作就是打印输出没有元素

 saveAsTextFile
将rdd保存到hdfs指定的路径,将rdd中每一个分区保存到hdfs上的block
saveAsObjectFile
将rdd中每10个元素组成一个array,然后将这个array序列化,映射为(null,bytesWritable(y))
写入hdfs为Sequence格式
collect
collect将分布式的rdd返回成一个scala数组,通过函数操作,将结果返回到driver节点上存储

collectAsMap
对key-value型的rdd返回一个单击的hashMap,如果key值相同则后面的元素替换前面的元素

 reduceByKeyLocally
实现是先reduce再collectAsMap操作,将结果返回一个hashMao
 
lookup
对key-value型的rdd进行操作,通过指定的key,返回对应元素的Seq()对象,这个算子的优化在于
如果这个rdd包含分区器,那么就只对指定key所在的分区进行扫描,如果没有则会对rdd进行全量扫描
 
count
就是返回整个rdd元素的个数

 
reduce
reduce就是先将rdd中的每个分区key-value的集合进行reduceLeft,在对每个分区形成的集合reduceFeft
 
 
广播变量
他广泛用户map site join 这些小表,以及广播大变量等场景,这些数据集合在单节点内存能够容纳,不想rdd那样在节点中 打散,spark运行时会把广播变量的数据发送到各个节点,保存下来,后续计算可以复用

 

 

最新文章

  1. ASP.NET MVC5+EF6+EasyUI 后台管理系统(59)-BLL层重构
  2. 你真的会用java replaceAll函数吗?
  3. Android置底一个View后运行报错
  4. subtable
  5. 警惕自己,不断学习c++【转】
  6. iOS,Xcod7/8,iOS使用修改点
  7. POJ 3237:Tree(树链剖分)
  8. 初级jQuery的使用
  9. Codeforces 364A - Matrix
  10. appDelegate中的委托协议方法以及使用观察者模式获取其触发方法
  11. 网页main中左边固定宽度,右边自适应。
  12. ASP.NET Ajax
  13. C#封装MongoDB工具类库
  14. luogu P1250 种树
  15. 使用透视表pivot_table
  16. Linux学习笔记:Jenkins的使用(二)
  17. 19.Odoo产品分析 (二) – 商业板块(11) – 在线活动(1)
  18. The C compiler identification is unknown解决办法
  19. Typescript 学习笔记四:回忆ES5 中的类
  20. view 的用法

热门文章

  1. AtCoder Grand Contest 012 B Splatter Painting (反向处理 + 记忆化)
  2. 洛谷——P2656 采蘑菇
  3. MySQL注入工具sqlsus
  4. POJ 3420 Quad Tiling (矩阵乘法)
  5. mysql悲观锁中的共享锁和排他锁
  6. Chromium和Chrome的区别
  7. ubuntu10.10编译TQ2440的x86-qtopia-2.2.0具体问题总结及原因分析
  8. mybatis-mysql小优化
  9. jar文件的Eclipse插件安装
  10. elasticsearch 安装和部署