spark(三)spark sql
2024-09-04 12:55:04
一、DataFrame
1、DataFrame是组织成命名列的数据的分布式集合,类似于关系型数据库的一张表,如果没有列名就等于RDD,如果有列名,就是DataFrames
DataFrames可以从各种各样的源构建,例如:结构化数据文件(JSON文件,xml文件),Hive中的表,外部数据库或现有RDD。
2、DataFrame如何使用
park-shell --master local [2]
scala> val df=sqlContext.read.json("hdfs://myha01/people.json")
df.show()
scala> df.sql("select * from people");
3、RDD转换成为DataFrame
第一种:反射的方式
我们是要提前知道RDD数据格式
第二种:编程的方式
二、1、load
2、save
补充:
Text 是行存储
rcfile 列存储
orcfile 列存储(rcfile的优化)
在大数据中喜欢用orcfile列存储 原因:查询速度比较快
sqlContext.read.load() 默认是parquet格式
最新文章
- [原创]MvvmLight中用IDialogService替代DialogMessage的用法
- Redis应用场景一
- Oracle ->;>; Oracle下查看实际执行计划的方法
- 给EditText的drawableRight属性的图片设置点击事件 分类: 学习笔记 android 2015-07-06 13:20 134人阅读 评论(0) 收藏
- GCD 单例
- CentOS 6.4 x64 Cacti 监控安装配置
- RxJava 笔记
- 深入了解UIViewController控制器与对应的View类的详解
- Redis master/slave,sentinel,Cluster简单总结
- Centos或Windows中部署Zookeeper集群及其简单用法
- Pandas统计分析
- js获取checkbox复选框获取选中的选项
- QT开发之旅三串口设备调试工具
- HttpWebRequest类与HttpRequest类的区别
- json拼接转义符
- 总结学习 Python 的 14 张思维导图汇总
- Bootstrap 与 Jquery validate 结合使用——简单实现
- AOP原理解析及Castle、Autofac、Unity框架使用
- 02 shell编程之条件语句
- JS单例