df = pd.DataFrame({'key1':list('aabba'),
'key2': ['one','two','one','two','one'],
'data1': np.random.randn(5),
'data2': np.random.randn(5)})
df

  data1 data2 key1 key2
0 -0.014192 2.236780 a one
1 -0.028981 0.507988 a two
2 -1.168170 -0.818003 b one
3 0.207849 0.755156 b two
4 -0.457174 -1.407547 a one

g=df.groupby(["key1"])
g.head(4)

  data1 data2 key1 key2
0 -0.014192 2.236780 a one
1 -0.028981 0.507988 a two
2 -1.168170 -0.818003 b one
3 0.207849 0.755156 b two

g['data1'].head(2)

0   -0.014192
1 -0.028981
2 -1.168170
3 0.207849
Name: data1, dtype: float64

feature_bag = g['data1'].apply(lambda x:set(x)).reset_index()

feature_bag

前面的情况比较好了解,groupby返回的是一个groupby对象。它实际上还没有进行任何计算,只是含有一些有分组键的中间数据而已。

因此输出g的时候,没有变化,抽取其中一列也和直接对df操作并没有什么区别。

但是做操作:feature_bag = g['data1'].apply(lambda x:set(x)).reset_index()。

做集合的时候,是以groupby()的key1的键值作为集合的生成判断标准的。

												

最新文章

  1. ssh 登录慢?
  2. css控制段落
  3. c语言1
  4. increadbuild重装
  5. bootshrap会改变IE浏览器滚动条样式
  6. 基于opencv 的图片模糊判断代码
  7. CentOS下使用cmake编译安装mysql
  8. InstallShield Clone dialog
  9. AD,Group
  10. WPF MVVM 用户控件完成分页
  11. 万科北京区域V-learn发布 系V-LINK产品系中首批产品
  12. Linux UDEV和为MySQL InnoDB共享表空间配置裸设备
  13. CentOS6.5 下在Nginx中添加SSL证书以支持HTTPS协议访问
  14. mysql数据库事务详细剖析
  15. EasyUI datagrid 的多条件查询
  16. 【vue】vue +element 实现批量删除
  17. Kafka基本架构及原理
  18. 小游戏:HelloColor
  19. mysql导入sql脚本
  20. python字典去重脚本

热门文章

  1. Spark文档阅读之二:Programming Guides - Quick Start
  2. Android学习笔记物理按键事件处理
  3. 02 . Ansible高级用法(运维开发篇)
  4. 浅谈HTTPS和HTTP
  5. 初见NVelocity模板引擎
  6. 【K8S学习笔记】初识K8S 及架构组件
  7. 设计模式系列之装饰模式(Decorator Pattern)——扩展系统功能
  8. hexo搭建个人博客部署到个人服务器(git+nginx+hexo+next)
  9. Cookie的简介与使用
  10. centos 6.5 上安装jdk