适用场景:

插入数据到mysql中,中途中断,导致部分数据未插入成功。避免下次插入时插入了重复的数据。

思路:

1、读取已插入的数据,

2、读取全部数据(包含已插入和未插入的),

3、将已插入的数据添加到全部数据中,产生重复数据,

4、删除所有重复的数据。

示例代码:

import pandas as pd
import numpy as np df = pd.DataFrame(np.arange(15).reshape((5, 3))) # 总数据
# 输出df:
0 1 2
0 0 1 2
1 3 4 5
2 6 7 8
3 9 10 11
4 12 13 14 df2 = df[:3] # 已插入的数据
# 输出df2:
0 1 2
0 0 1 2
1 3 4 5
2 6 7 8 df = df.append(df2) # 将已插入的数据添加到全部数据里面,生成重复数据
df = df.append(df2) # 需要添加两次,避免将df2在df中没有的数据添加了
# 输出df:
0 1 2
0 0 1 2
1 3 4 5
2 6 7 8
3 9 10 11
4 12 13 14
0 0 1 2
1 3 4 5
2 6 7 8
0 0 1 2
1 3 4 5
2 6 7 8 df = df.drop_duplicates(keep=False) # 删除具有重复数据的行,即得到差集
# 输出df:
0 1 2
3 9 10 11
4 12 13 14

最新文章

  1. 设计模式--单例模式Singleton(创建型)
  2. 优化 bulk insert
  3. 【hadoop2.6.0】安装+例子运行
  4. SVN 操作指南
  5. CRT:C运行库简介
  6. Oracle数据库中文乱码问题
  7. android开发推荐书籍列表
  8. oracle rac存储安装
  9. 机器学习(1)之梯度下降(gradient descent)
  10. Java应用开发的一条经验
  11. CSS3 过渡
  12. ORA-00845 Oracle 启不来修改 MEMORY_TARGET
  13. JAVA中用于处理字符串的“三兄弟”
  14. AssertJ
  15. vue的登陆验证及返回登录前页面实现
  16. DDD 学习记录
  17. tf.Variable() 与tf.get_variable()的区别
  18. SQL Server的优化器会缓存标量子查询结果集吗
  19. js 判断所选时间(或者当前时间)是否在某一时间段的实现代码
  20. .Net Core 控制台程序生产exe

热门文章

  1. 第3节 sqoop:4、sqoop的数据导入之导入数据到hdfs和导入数据到hive表
  2. MySQL设置各类字符集
  3. PHP-WebShell-Bypass-WAF
  4. mysql8 my.ini
  5. mysql limit查询入门
  6. SignalTap II Logic Analyzer 无法观测到信号?
  7. DevOps 教程
  8. django-腾讯paas-appengine阅读
  9. Js获取页面地址参数
  10. Ubuntu跨版本安装软件