关键缩写和包导入

在这个速查手册中,我们使用如下缩写:

df:任意的Pandas DataFrame对象
s:任意的Pandas Series对象
raw:行标签
col:列标签

引入响应模块:

import pandas as pd
import numpy as np

导入数据

  • pd.read_csv(filename_path):从CSV文件导入数据
  • pd.read_table(filename_path):从限定分隔符的文本文件导入数据
  • pd.read_excel(filename_path):从Excel文件导入数据
  • pd.read_sql(query, connection_object):从SQL表/库导入数据
  • pd.read_json(json_string):从JSON格式的字符串导入数据
  • pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
  • pd.read_clipboard():从你的粘贴板获取内容,并传给read_table()
  • pd.DataFrame(dict):从字典对象导入数据,Key是列名,Value是数据
pd.read_excel(io, sheetname=0, header=0, skiprows=None, skip_footer=0, index_col=None, names=None, parse_cols=None, parse_dates=False, date_parser=None, na_values=None, thousands=None, convert_float=True, has_index_names=None, converters=None, dtype=None, true_values=None, false_values=None, engine=None, squeeze=False, **kwds)
'''该函数主要的参数为:io、sheetname、header、names、encoding。
io:excel文件,可以是文件路径、文件网址、file-like对象、xlrd workbook;
sheetname:返回指定的sheet,参数可以是字符串(sheet名)、整型(sheet索引)、list(元素为字符串和整型,返回字典{'key':'sheet'})、none(返回字典,全部sheet);(如果一个excel含有多个表,如果你只想读入其中一个可以:df = pd.read_excel('log.xls', sheetname=1))
header:指定数据表的表头,参数可以是int、list of ints,即为索引行数为表头;
names:返回指定name的列,参数为array-like对象。
encoding:关键字参数,指定以何种编码读取。
该函数返回pandas中的DataFrame或dict of DataFrame对象,利用DataFrame的相关操作即可读取相应的数据。''' pd.read_table(r'E:\test.txt', sep=' ',index_col=0)
'''常用参数:
header=None:没有每列的column name,可以自己设定
encoding='gb2312':其他编码中文显示错误
index_col=0:设置第1列数据作为index
sep:设置分隔符'''

导出数据

  • df.to_csv(filename_path):导出数据到CSV文件
  • df.to_excel(filename_path):导出数据到Excel文件
  • df.to_sql(table_name, connection_object):导出数据到SQL表
  • df.to_json(filename_path):以Json格式导出数据到文本文件
DataFrame.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None)

该函数主要参数为:excel_writer。
excel_writer:写入的目标excel文件,可以是文件路径、ExcelWriter对象;
sheet_name:被写入的sheet名称,string类型,默认为'sheet1';
na_rep:缺失值表示,string类型;
header:是否写表头信息,布尔或list of string类型,默认为True;
index:是否写行号,布尔类型,默认为True;
encoding:指定写入编码,string类型。

创建测试对象

  • pd.DataFrame(np.random.rand(20,5)):创建20行5列的随机数组成的DataFrame对象
  • pd.Series(my_list):从可迭代对象my_list创建一个Series对象
  • df.index = pd.date_range('1900/1/30', periods=df.shape[0]):增加一个日期索引

查看、检查数据

  • df.head(n):查看DataFrame对象的前n行(不加参数,默认前10行)
  • df.tail(n):查看DataFrame对象的最后n行(不加参数,默认后10行)
  • df.shape():查看行数和列数(维度查看)
  • http://df.info()df.info-df.infodfdf.info():查看索引、数据类型和内存信息
  • df.describe():查看数值型列的汇总统计
  • s.value_counts(dropna=False):查看Series对象的唯一值和计数
  • df.apply(pd.Series.value_counts):查看DataFrame对象中每一列的唯一值和计数
  • df.dtypes:查看每一列的数据类型(扩展:df['two'].dtypes,查看“two”列的类型)
  • df.isnull():查看空置(注:空置部分会用true显示,不是空置False显示)(扩展:df['two'].isnull,查看“two”这一列的空置)
  • df.values:查看数据表的值
  • df.columns:查看列名称

数据选取

  • df.isin([5]):判断全部数据值中是否有5
  • dr[col].isin([5]):判断列col中是否有5
  • df[col]:根据列名,并以Series的形式返回列
  • df[[col1, col2]]:以DataFrame形式返回多列
  • s.iloc[0]:按位置选取行数据
  • s.loc['index_one']:按索引选取行数据
  • df.iloc[0,:]:返回第一行
  • df.iloc[0,0]:返回第一列的第一个元素
  • df.ix[0] 或 df.ix[raw] :ix函数可以根据行位置或行标签选择行数据

 注:loc函数根据行标签进行行选择;

         iloc函数根据行位置进行行选择;

         ix函数可以根据行位置选择也可以根据行标签选择。

数据清理

  • df.columns = ['a','b','c']:重命名列名
  • pd.isnull():检查DataFrame对象中的空值,并返回一个Boolean数组
  • pd.notnull():检查DataFrame对象中的非空值,并返回一个Boolean数组
  • df.dropna():删除所有包含空值的行
  • df.dropna(axis=1):删除所有包含空值的列
  • df.dropna(axis=1,thresh=n):删除所有小于n个非空值的行
  • df.fillna(x):用x替换DataFrame对象中所有的空值(注:fillna()会填充nan数据,返回填充后的结果。如果希望在原DataFrame中修改,则把inplace设置为True。如,df.fillna(0,inplace=True))
  • s.astype(float):将Series中的数据类型更改为float类型
  • df[col].astype(float):将DataFrame某列数据类型改为float类型
  • s.replace(1,'first'):用‘first’代替所有等于1的值(替换的是值,不是列名也不是索引名)
  • s.replace([1,3],['one','three']):用'one'代替1,用'three'代替3
  • df[col].replace(1,1.0,inplace=True):列col中的值1用1.0替换
  • df.replace([1,3],['one','three'])
  • df.rename(columns=lambda x: x + 1):批量更改列名
  • df.rename(columns={'old_name': 'new_ name'}):选择性更改列名
  • df.set_index('column_one'):将column_one这一列变为索引列
  • df.rename(index=lambda x: x + 1):批量重命名索引
  • df[col]=df[col].str.upper()或df[col].str.lower():基于列的大小写转换
  • df[col]=df[col].map(str.strip):清楚某列的空格
  • df.drop_duplicates(subset=col,keep='fisrt',inplace=Flase):删除重复值

注:这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional      用来指定特定的列,默认所有列
  • keep : {‘first’, ‘last’, False}, default ‘first’      删除重复项并保留第一次出现的项
  • inplace : boolean, default False        是直接在原来数据上修改还是保留一个副本

数据处理:Filter、Sort和GroupBy

  • df[df[col] > 0.5]:选择col列的值大于0.5的行
  • df.sort_values(col1):按照列col1排序数据,默认升序排列
  • df.sort_values(col2, ascending=False):按照列col1降序排列数据
  • df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列数据
  • df.groupby(col):返回一个按列col进行分组的Groupby对象
  • df.groupby([col1,col2]):返回一个按多列进行分组的Groupby对象
  • df.groupby(col1)[col2]:返回按列col1进行分组后,列col2的均值
  • df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表
  • df.groupby(col1).agg(np.mean):返回按列col1分组的所有列的均值
  • data.apply(np.mean):对DataFrame中的每一列应用函数np.mean
  • data.apply(np.max,axis=1):对DataFrame中的每一行应用函数np.max
  • df.isin

数据合并

  • df1.append(df2):将df2中的行添加到df1的尾部
  • df.concat([df1, df2],axis=1):将df2中的列添加到df1的尾部
  • df1.join(df2,on=col1,how='inner'):对df1的列和df2的列执行SQL形式的join

数据统计

  • df.describe():查看数据值列的汇总统计
  • df.mean():返回所有列的均值
  • df.corr():返回列与列之间的相关系数
  • df.count():返回每一列中的非空值(NaN)的个数
  • df.max():返回每一列的最大值
  • df.min():返回每一列的最小值
  • df.median():返回每一列的中位数
  • df.std():返回每一列的标准差
  • df.sum():返回所有行的和

 附加:

1.字典内嵌列表

import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print df 输出:
Age Name
0 28 Tom
1 34 Jack
2 29 Steve
3 42 Ricky

2.列表内嵌字典

列表内嵌字典,字典的键默认为列名。

import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print df 输出:
a b c
0 1 2 NaN
1 5 10 20.0

原文链接

最新文章

  1. javaScript系列:js中获取时间new Date()详细介绍
  2. 做参数可以读取参数 保存参数 用xml文件的方式
  3. PHP json_encode中文乱码解决方法
  4. POJ 2876 Cantoring Along
  5. eclipse开发web应用程序步骤(图解)
  6. C#线程系列讲座(4):同步与死锁
  7. ACRush 楼天成回忆录
  8. 2搭建Android开发环境
  9. wamp环境搭建
  10. MFC——AfxParseURL用法
  11. Threading Module源码概述(三)
  12. Mac上小巧实用的GIF格式录屏软件 LICEcap
  13. coding菜鸟养成记
  14. 用JavaScript比较两个数组是否相等
  15. git rebase的用法
  16. 2、JavaScript 基础二 (从零学习JavaScript)
  17. Apache Kafka 源码剖析
  18. shell脚本之正则表达式
  19. 定制保存top输出信息的格式详解
  20. php 截取字符串第一个字符,截取掉字符串最后一个字符的方法

热门文章

  1. SpringBoot与MybatisPlus整合之公用字段填充(十一)
  2. 致Java星球程序员兄弟们的一封信
  3. 怎么用Vuecli 3.0快速创建项目
  4. const var let 三者的区别
  5. 学习笔记25_MVC前台API
  6. [转载]1.4 UiPath参数的介绍和使用
  7. ASP.NET Core主机地址过滤HostFiltering
  8. DFS深度优先算法学习
  9. @resource和@autowired的区别是什么-CSDN论坛-CSDN.NET-中国最大的IT技术社区 - Google Chrome
  10. C语言:大数取余