一、DataFrame

1、DataFrame是组织成命名列的数据的分布式集合,类似于关系型数据库的一张表,如果没有列名就等于RDD,如果有列名,就是DataFrames

DataFrames可以从各种各样的构建,例如:结构化数据文件(JSON文件,xml文件),Hive中的表,外部数据库或现有RDD。

2、DataFrame如何使用

park-shell --master local [2]

scala> val df=sqlContext.read.json("hdfs://myha01/people.json")

df.show()

scala> df.sql("select * from people");

3、RDD转换成为DataFrame

第一种:反射的方式

我们是要提前知道RDD数据格式

第二种:编程的方式

二、1、load

2、save

补充:

Text 是行存储

rcfile  列存储

orcfile 列存储(rcfile的优化)

在大数据中喜欢用orcfile列存储  原因:查询速度比较快

sqlContext.read.load() 默认是parquet格式

最新文章

  1. [原创]MvvmLight中用IDialogService替代DialogMessage的用法
  2. Redis应用场景一
  3. Oracle ->> Oracle下查看实际执行计划的方法
  4. 给EditText的drawableRight属性的图片设置点击事件 分类: 学习笔记 android 2015-07-06 13:20 134人阅读 评论(0) 收藏
  5. GCD 单例
  6. CentOS 6.4 x64 Cacti 监控安装配置
  7. RxJava 笔记
  8. 深入了解UIViewController控制器与对应的View类的详解
  9. Redis master/slave,sentinel,Cluster简单总结
  10. Centos或Windows中部署Zookeeper集群及其简单用法
  11. Pandas统计分析
  12. js获取checkbox复选框获取选中的选项
  13. QT开发之旅三串口设备调试工具
  14. HttpWebRequest类与HttpRequest类的区别
  15. json拼接转义符
  16. 总结学习 Python 的 14 张思维导图汇总
  17. Bootstrap 与 Jquery validate 结合使用——简单实现
  18. AOP原理解析及Castle、Autofac、Unity框架使用
  19. 02 shell编程之条件语句
  20. JS单例

热门文章

  1. JVM知识(上)
  2. 如何快速解决MySQL 1032 主从错误
  3. 用MYSQLworkbench导出数据excel
  4. Scrapy模拟登录GitHub
  5. axios封装(二)队列管理
  6. hdu6447
  7. ADO.Net之SqlConnection、 Sqlcommand的应用
  8. Spark配置参数的三种方式
  9. Centos7 Zabbix监控部署
  10. python3【基础】-装饰器