RDD、DF和DS的共性与区别
2024-10-20 16:14:16
共性:
1、都是spark平台下的分布式弹性数据集
2、都有惰性机制,创建、转换如map操作时不会立即执行,遇到foreach等Action算子时才开始运算。
3、都会自动缓存计算
4、都有partition概念
区别:
1、RDD不支持sparkSQL操作
2、DF每一行类型固定为Row,只有通过解析才能获取值。如 line.getAs[String]("col1")
3、DF和DS支持sparkSQL
4、DF和DS支持方便地保存文件格式,可以直接指定。
5、DF每一行类型不固定,所以在Scala中用case class作模式匹配来校正
6、DS效率最高
最新文章
- Python2.7如何安装numhttp://www.cnblogs.com/yuanzm/p/4089856.htmlpy
- HTML适应手机浏览器宽度
- 分布式架构高可用架构篇_07_MySQL主从复制的配置(CentOS-6.7+MySQL-5.6)
- ThinkPHP 模型(Model)命名规范
- 如何在linux系统下面编译C++(写给小白)(-1)
- [流媒体]live555简介(转)
- hdu 1885 Key Task (三维bfs)
- poj 2079 Triangle(旋转卡壳)
- jupyter巨好玩-常用设置
- poj1077 Eight【爆搜+Hash(脸题-_-b)】
- 如何在在网页上显示pdf文档
- HTML+CSS+JS简介
- java连接sqlserver2008
- LeetCode 929.Unique Email Addresses
- ABAP开发规范
- [Android 泥水匠] Android基础 之一:浅谈Android架构到HelloWorld案例的剖析
- 一些公司的面试题目 U3D
- 安装MySQL start Service(无法启动服务)
- [Windows] 解决 COM Surrogate 错误提示
- 树莓3B+_teamviewer_install