创建DataFrame在Spark SQL中,开发者可以非常便捷地将各种内、外部的单机、分布式数据转换为DataFrame。以下Python示例代码充分体现了Spark SQL 1.3.0中DataFrame数据源的丰富多样和简单易用:

  1. # 从Hive中的users表构造DataFrame
  2. users = sqlContext.table("users")
  3. # 加载S3上的JSON文件
  4. logs = sqlContext.load("s3n://path/to/data.json", "json")
  5. # 加载HDFS上的Parquet文件
  6. clicks = sqlContext.load("hdfs://path/to/data.parquet", "parquet")
  7. # 通过JDBC访问MySQL
  8. comments = sqlContext.jdbc("jdbc:mysql://localhost/comments", "user")
  9. # 将普通RDD转变为DataFrame
  10. rdd = sparkContext.textFile("article.txt") \
  11. .flatMap(lambda line: line.split()) \
  12. .map(lambda word: (word, 1)) \
  13. .reduceByKey(lambda a, b: a + b) \
  14. wordCounts = sqlContext.createDataFrame(rdd, ["word", "count"])
  15. # 将本地数据容器转变为DataFrame
  16. data = [("Alice", 21), ("Bob", 24)]
  17. people = sqlContext.createDataFrame(data, ["name", "age"])
  18. # 将Pandas DataFrame转变为Spark DataFrame(Python API特有功能)
  19. sparkDF = sqlContext.createDataFrame(pandasDF)

最新文章

  1. [搬砖]Pycharm中启动IPython notebook失败提示load_entry_point ImportError: Entry point ('console_scripts', 'ipython') not found的解决方法
  2. Sql 2012 远程数据库连接
  3. CSS3媒体查询
  4. [ActionScript 3.0] AS3.0 动态加载显示内容
  5. 1056. Mice and Rice (25)
  6. 用于显示上个月和下个月_PHP
  7. PL/SQL中的变量
  8. 【枚举+贪心】【TOJ3981】【ICPC Balloons】
  9. Libgdx Box2D现实---这缓释微丸(两:Box2D介绍)
  10. web自动化1-selenium简介及环境搭建
  11. D - MUH and Cube Walls
  12. 获取本地ip
  13. openvpn服务器一键脚本生成客户端文件
  14. C#操作剪切板(Clipboard)
  15. shiro 介绍和基本使用
  16. Fabric动态增加组织【资料】
  17. ansible的logging模块用来写日志
  18. 在vue2.0中引用element-ui组件库
  19. C++/MFC-线程优先级
  20. JAVA_POI 操作Excel

热门文章

  1. Concurrency Managed Workqueue(四)workqueue如何处理work
  2. 使用和学习 ES2015
  3. python科学计算基础知识
  4. sublim3常用插件安装
  5. ECSHOP后台权限分配原理分析
  6. Centos7 防火墙关闭和启用iptables防火墙
  7. cocos2dx 3.x ccDrawLine一个坑
  8. Maven 在eclipse中如何配置
  9. ny495 少年 DXH
  10. Oracle PLSQL Demo - 12.定义包体[Define PACKAGE BODY]