[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子
2024-09-24 17:44:17
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子
sqlContext = HiveContext(sc)
peopleDF = sqlContext.read.json("people.json")
peopleRDD = peopleDF.map(lambda row: (row.pcode,row.name))
peopleRDD.take(5)
Out[5]:
[(u'94304', u'Alice'),
(u'94304', u'Brayden'),
(u'10036', u'Carla'),
(None, u'Diana'),
(u'94104', u'Etienne')]
peopleByPCode= peopleRDD.groupByKey()
peopleByPCode.take(5)
[(u'10036', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2290>),
(u'94104', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2690>),
(u'94304', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2490>),
(None, <pyspark.resultiterable.ResultIterable at 0x7f0d683a25d0>)]
最新文章
- Backbone中的model和collection在做save或者create操作时, 如何选择用POST还是PUT方法 ?
- python征程3.0(python对象)
- FBI阅人术——用最短的时间了解一个人
- [译]我是怎么构建Node.js程序的
- Android中如何解决输入法键盘和activity页面遮挡的问题
- Scala伴生类和伴生对象
- RESTful服务的版本管理经验 (转)
- Java学习笔记之:Java 继承
- python常用web框架性能测试(django,flask,bottle,tornado)
- 简单改写SQL达到优化目的
- 最简单的基于FFMPEG的音频编码器(PCM编码为AAC)
- 判断richtextbox选中的是否为图片
- USACO2016 January Gold Angry Cows
- LeetCode 16. 3Sum Closest. (最接近的三数之和)
- 爬虫_vs_反爬虫
- AngularJS1.X学习笔记11-服务
- Vue-详解设置路由导航的两种方法
- Web 性能优化: 使用 Webpack 分离数据的正确方法
- Golang 优化之路-空结构[转]
- Web安全 概述
热门文章
- 算法:输入一个链表,输出该链表中倒数第k个结点。
- (后端)Mybatis实现批量删除操作(转)
- 解决VS2015单元测试“未能设置用于运行测试的执行上下文”问题
- Linux Xshell连接Linux服务器时报错Socket error Event: 32 Error: 10053
- Python爬取网络图片
- XSS攻击介绍
- Microsoft .NET Framework 3.5 离线安装方法 (仅适用于Win8以上的系统)
- LeetCode算法题-Implement Queue Using Stacks(Java实现)
- 《Java大学教程》—第10章 图形和事件驱动程序
- Python的datetime模块分析