在pandas中,concat, merge, join的使用方法可以参考以下资料:
http://blog.csdn.net/stevenkwong/article/details/52528616
主要讲下笛卡尔积:

import pandas as pd
from pandas import DataFrame
df1=DataFrame({'a':[1,2,3], 'b':[4,5,6], 'key':[0,0,0]})
df2=DataFrame({'c':[3,2,1], 'd':[6,5,4], 'key':[0,0,0]})
data = pd.merge(df1, df2, on='key')

这里merge默认为内连接。

df1:

   a  b  key
0 1 4 0
1 2 5 0
2 3 6 0

  

df2:

   c  d  key
0 3 6 0
1 2 5 0
2 1 4 0

  

data:

   a  b  key  c  d
0 1 4 0 3 6
1 1 4 0 2 5
2 1 4 0 1 4
3 2 5 0 3 6
4 2 5 0 2 5
5 2 5 0 1 4
6 3 6 0 3 6
7 3 6 0 2 5
8 3 6 0 1 4

  

由此可知,当两个表连接时,有相同的key值就产生积。

如果,需要进行merge的次数过多时,每次都产生笛卡尔积,最终就会产生内存爆炸的现象。

所以,在merge时,一定要避免相同的key值,可以分批次merge,最后再concat。
---------------------

原文:https://blog.csdn.net/yj1556492839/article/details/79529186

最新文章

  1. shell 输出九九乘法表
  2. Android学习---ListView和Inflater的使用,将一个布局文件转化为一个对象
  3. json写入new_hello文件
  4. centos 20T硬盘(超过16T)分区
  5. KD-tree
  6. PowerShell 语法结构
  7. android -- WatchDog看门狗分析
  8. C#与.Net Framework的各种版本和联系
  9. js架构设计模式——理解javascript中的MVVM开发模式
  10. sshpass做秘钥分发,ansible做自动化运维工具
  11. 轻松把你的项目升级到PWA
  12. codeforces 897B Chtholly's request 偶数长度回文数
  13. Dlib Opencv cv2.fitEllipse用于人眼轮廓椭圆拟合
  14. [干货,阅后进BAT不是梦]面试心得与总结---阿里、小米、腾讯
  15. Spring4-@Enable** 注解的实现原理
  16. 静态方法(staticmethod)和类方法(classmethod)
  17. 洛谷P1315 观光公交
  18. css盒子模型、边框border、外边距margin、填充padding、轮廓outline
  19. ASP入门(十八)-访问Access中的数据库
  20. vue-学习笔记(更新中...)

热门文章

  1. Tomcat gzip果然强大,js文件压缩率50%以上
  2. RHEL7系统修复rm -rf /boot /etc/fstab
  3. Android ProgressBar具体解释以及自己定义
  4. JS中关于in运算符的问题
  5. Python中的乱码
  6. IT创业失败案例解析 - 第一篇
  7. cmd命令之set详解
  8. 算法笔记_188:历届试题 危险系数(Java)
  9. flume spooldir bug修复
  10. navicat ora-28547:connection to server failed