[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子

sqlContext = HiveContext(sc)

peopleDF = sqlContext.read.json("people.json")

peopleRDD = peopleDF.map(lambda row: (row.pcode,row.name))

peopleRDD.take(5)

Out[5]: 
[(u'94304', u'Alice'),
(u'94304', u'Brayden'),
(u'10036', u'Carla'),
(None, u'Diana'),
(u'94104', u'Etienne')]

peopleByPCode= peopleRDD.groupByKey()

peopleByPCode.take(5)

[(u'10036', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2290>),
(u'94104', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2690>),
(u'94304', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2490>),
(None, <pyspark.resultiterable.ResultIterable at 0x7f0d683a25d0>)]

最新文章

  1. Backbone中的model和collection在做save或者create操作时, 如何选择用POST还是PUT方法 ?
  2. python征程3.0(python对象)
  3. FBI阅人术——用最短的时间了解一个人
  4. [译]我是怎么构建Node.js程序的
  5. Android中如何解决输入法键盘和activity页面遮挡的问题
  6. Scala伴生类和伴生对象
  7. RESTful服务的版本管理经验 (转)
  8. Java学习笔记之:Java 继承
  9. python常用web框架性能测试(django,flask,bottle,tornado)
  10. 简单改写SQL达到优化目的
  11. 最简单的基于FFMPEG的音频编码器(PCM编码为AAC)
  12. 判断richtextbox选中的是否为图片
  13. USACO2016 January Gold Angry Cows
  14. LeetCode 16. 3Sum Closest. (最接近的三数之和)
  15. 爬虫_vs_反爬虫
  16. AngularJS1.X学习笔记11-服务
  17. Vue-详解设置路由导航的两种方法
  18. Web 性能优化: 使用 Webpack 分离数据的正确方法
  19. Golang 优化之路-空结构[转]
  20. Web安全 概述

热门文章

  1. 算法:输入一个链表,输出该链表中倒数第k个结点。
  2. (后端)Mybatis实现批量删除操作(转)
  3. 解决VS2015单元测试“未能设置用于运行测试的执行上下文”问题
  4. Linux Xshell连接Linux服务器时报错Socket error Event: 32 Error: 10053
  5. Python爬取网络图片
  6. XSS攻击介绍
  7. Microsoft .NET Framework 3.5 离线安装方法 (仅适用于Win8以上的系统)
  8. LeetCode算法题-Implement Queue Using Stacks(Java实现)
  9. 《Java大学教程》—第10章 图形和事件驱动程序
  10. Python的datetime模块分析