# 导入相关库
import numpy as np
import pandas as pd

  在数据处理过程中,经常会遇到要筛选不同要求的数据。通过 Pandas 可以轻松时间,这一篇我们来看下如何使用 Pandas 来完成数据筛选吧

创建数据

index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")
data = {
"age": [18, 30, np.nan, 40, np.nan, 30],
"city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],
"sex": [None, "male", "female", "male", np.nan, "unknown"],
"birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]
}
user_info = pd.DataFrame(data=data, index=index)
# 将出生日期转为时间戳
user_info["birth"] = pd.to_datetime(user_info.birth)
user_info """
     age city   sex birth
name
Tom 18.0 Bei Jing None 2000-02-10
Bob 30.0 Shang Hai male 1988-10-17
Mary NaN Guang Zhou female NaT
James 40.0 Shen Zhen male 1978-08-08
Andy NaN NaN    NaN    NaT
Alice 30.0      unknown 1988-10-17
"""

  Pandas 中除了支持 Python 和 Numpy 的索引运算符[]和属性运算符.来访问数据之外,还有很多其他的方式来访问数据,我们一起来看看吧

字典式 get 访问

  我们知道,Python 中的字典要获取 value 时可以通过 get 方法来获取,对于 Series 和 DataFrame 也一样,他们一样可以通过 get 方法来获取

# 获取得到所有年龄相关的这一列的信息,结果为一个 Series
user_info.get("age")
# 从包含所有的年龄信息的 Series 中得到 Tom 的年龄
user_info.get("age").get("Tom")

属性访问

  除了可以通过  get  方法来获取数据之外,还可以通过属性的方式来访问,同样完成上面的功能, 来看下如何通过属性访问的方式来实现

# 获取得到所有年龄相关的这一列的信息,结果为一个 Series
user_info.age
# 从包含所有的年龄信息的 Series 中得到 Tom 的年龄
user_info.age.Tom

切片操作

  在学习 Python 时,会发现列表的切片操作非常地方便,Series 和 DataFrame 同样也有切片操作
  对于 Series 来说,通过切片可以完成选择指定的行,对于 DataFrame 来说,通过切片可以完成选择指定的行或者列,来看看怎么玩吧

# 筛选行
# 获取年龄的前两行
user_info.age[:2]
# 获取所有信息的前两行
user_info[:2]
# 所有信息每两行选择一次数据
user_info[::2]
# 对所有信息进行反转
user_info[::-1] # 筛选 DataFrame 中的列
# 筛选出一列数据:将列名传入切片即可完成筛选
user_info["age"]
# 筛选出多列的数据:将对应的列名传入组成一个列表,传入切片中即可
user_info[["city", "age"]]

  可以看到,列表中的列名的顺序会影响最后的结果

通过数字筛选行和列

  通过切片操作可以完成筛选行或者列,如何同时筛选出行和列呢?通过 iloc 即可实现, iloc 支持传入行和列的筛选器,并用 , 隔开。无论是行或列筛选器, 都可以为以下几种情况:

  • 一个整数,如 2
  • 一个整数列表,如 [2, 1, 4]
  • 一个整数切片对象,如 2:4
  • 一个布尔数组
  • 一个callable

  先来看下前3种的用法

# 筛选出第一行数据
user_info.iloc[0]
# 筛选出第二行第一列的数据
user_info.iloc[1, 0]
# 筛选出第二行、第一行、第三行对应的第一列的数据
user_info.iloc[[1, 0, 2], 0]
# 筛选出第一行至第三行以及第一列至第二列的数据
user_info.iloc[0:3, 0:2]
# 筛选出第一列至第二列的数据
user_info.iloc[:, 0:2]

通过名称筛选行和列

  虽然通过 iloc 可以实现同时筛选出行和列,但是它接收的是数字,非常不直观, 通过 loc 可实现传入名称来筛选数据, loc 支持传入行和列的筛选器,并用 , 隔开。无论是行或者列筛选器,都可以为以下几种情况:

  • 一个索引的名称,如:"Tom"
  • 一个索引的列表,如:["Bob", "Tom"]
  • 一个标签范围,如:"Tom": "Mary"
  • 一个布尔数组
  • 一个callable

  先来看下前3种的用法

# 筛选出索引名称为 Tom 的数据一行数据
user_info.loc["Tom"]
# 筛选出索引名称为 Tom 的年龄
user_info.loc["Tom", "age"]
# 筛选出索引名称在 ["Bob", "Tom"] 中的两行数据
user_info.loc[["Bob", "Tom"]]
# 筛选出索引名称在 Tom 到 Mary 之间的数据
user_info.loc["Tom": "Mary"] # 筛选出年龄这一列数据
user_info.loc[:, ["age"]]
# 筛选出所有 age 到 birth 之间的这几列数据
user_info.loc[:, "age": "birth"]

布尔索引

  通过布尔操作我们一样可以进行筛选操作,布尔操作时

  • &  -->  and
  • |  -->  or
  • ~  -->  not

  当有多个布尔表达式时,需要通过小括号来进行分组

# 筛选出年龄>20的数据
user_info[user_info.age > 20]
# 筛选出年龄在20岁以上,并且性别为男性的数据
user_info[(user_info.age > 20) & (user_info.sex == "male")]
# 筛选出性别不为 unknown 的数据
user_info[~(user_info.sex == "unknown")] # 筛选出年龄>20,只显示age字段的数据
user_info.loc[user_info.age > 20, ["age"]]

isin 筛选

  Series 包含了 isin 方法,它能够返回一个布尔向量,用于筛选数据

# 筛选出性别属于 male 和 female的数据
user_info[user_info.sex.isin(["male", "female"])] # 筛选出索引为Bob的数据
user_info[user_info.index.isin(["Bob"])]

Callable 筛选

  loc、iloc、切片操作都支持接收一个 callable 函数,callable 必须是带有一个参数(调用Series,DataFrame)的函数,并且返回用于索引的有效输出

# 筛选age>20的数据
user_info[lambda df: df["age"] > 20]
# 筛选age>20,返回age字段的数据
user_info.loc[lambda df: df.age > 20, lambda df: ["age"]]
# 筛选行索引为0和5,列索引为0的数据
user_info.iloc[lambda df: [0, 5], lambda df: [0]]

最新文章

  1. BdAsyncTask学习
  2. 线程学习笔记 等待句柄和线程池(摘自https://blog.gkarch.com/threading/part2.html#manualresetevent)
  3. Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization
  4. [Effective Java]第十一章 序列化
  5. Maven项目的发布,发布到Nexus
  6. 合并Excel文件
  7. js基础之ajax
  8. php 在客户端生成txt文件并且下载
  9. 用Java发送邮件
  10. IOS通过PushSharp开源框架发送推送
  11. Codeforces Round #199 (Div. 2) B. Xenia and Spies
  12. 流动python - 一个极简主义event制
  13. CodeForces 711A Bus to Udayland
  14. Python迭代和解析(4):自定义迭代器
  15. 用WijmoJS搭建您的前端Web应用 —— React
  16. BZOJ 4259 残缺的字符串
  17. BZOJ1095:[ZJOI2007]Hide 捉迷藏(动态点分治)
  18. python初级实战-----主机在线情况监控web
  19. net core体系-web应用程序-4asp.net core2.0 项目实战(1)-5项目数据库操作封装操作-EF框架
  20. request对象方法

热门文章

  1. MySQL InnoDB如何保证事务特性
  2. Mysql高手系列 - 第20篇:异常捕获及处理详解(实战经验)
  3. 分库分表(6)--- SpringBoot+ShardingSphere实现分表+ 读写分离
  4. Linux上安装jdk1.8和配置环境变量
  5. 写在Python学习前
  6. Zabbix安装与简单配置
  7. CH3803扑克牌
  8. java和JavaScript的注释区别
  9. Vue中的循环以及修改差值表达式
  10. linux ln命令 建立文件夹桌面快捷方式