DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame.

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

参考文献:

【1】pandas使用drop_duplicates去除DataFrame重复项参数详解

最新文章

  1. 【Android】Android Studio 快速打开Github上的Demo
  2. [python拾遗]列表
  3. OFFICE 修改记录保存在单元格批注中vba
  4. linux 目录结构图解
  5. Struts2文件下载
  6. 2015.1写留言板的时用的 知识点和函数 --->总结
  7. 让delphi程序不受WINDOWS日期格式的影响
  8. [转]Laravel 4之表单
  9. C/C++与C#之间类型的对应
  10. Docker最简教程
  11. 如何自学Java开发
  12. 一个用于分页的page类
  13. 用STM32CudeMX 配置用到的函数(记住他!)
  14. selenium java maven自动化测试环境搭建
  15. spring proxy-target-class
  16. CRC-16的原理和实现
  17. python socket 编程之三:长连接、短连接以及心跳(转药师Aric的文章)
  18. L1-008 求整数段和
  19. ArchLinux 下 virtualbox 报错 libQtCore.so.4: cannot open shared object file
  20. Codeforces Round #340 (Div. 2)B

热门文章

  1. Entity Framework6的在线下载安装
  2. sencha touch Button Select(点击按钮进行选择)扩展
  3. Ruby require, load include 区别
  4. [工具] multidesk
  5. CodeFrist、ModelFirst、DatabaseFirst
  6. SVG学习笔录(一)
  7. Spark2 Dataset之collect_set与collect_list
  8. spring面试大全
  9. Flask 学习篇二:学习Flask过程中的记录
  10. Anaconda安装教程+Tensorflow教程