pandas DataFrame是二维的,所以,它既有列索引,又有行索引

上一篇里只介绍了列索引:

import pandas as pd

df = pd.DataFrame({'A': [0, 1, 2], 'B': [3, 4, 5]})
print df # 结果:
A B
0 0 3
1 1 4
2 2 5

行索引自动生成了 0,1,2

如果要自己指定行索引和列索引,可以使用 index 和 column 参数:

这个数据是5个车站10天内的客流数据:

ridership_df = pd.DataFrame(
data=[[ 0, 0, 2, 5, 0],
[1478, 3877, 3674, 2328, 2539],
[1613, 4088, 3991, 6461, 2691],
[1560, 3392, 3826, 4787, 2613],
[1608, 4802, 3932, 4477, 2705],
[1576, 3933, 3909, 4979, 2685],
[ 95, 229, 255, 496, 201],
[ 2, 0, 1, 27, 0],
[1438, 3785, 3589, 4174, 2215],
[1342, 4043, 4009, 4665, 3033]],
index=['05-01-11', '05-02-11', '05-03-11', '05-04-11', '05-05-11',
'05-06-11', '05-07-11', '05-08-11', '05-09-11', '05-10-11'],
columns=['R003', 'R004', 'R005', 'R006', 'R007']
)

data 参数为一个numpy二维数组,  index 参数为行索引, column 参数为列索引

生成的数据以表格形式显示:

          R003  R004  R005  R006  R007
05-01-11 0 0 2 5 0
05-02-11 1478 3877 3674 2328 2539
05-03-11 1613 4088 3991 6461 2691
05-04-11 1560 3392 3826 4787 2613
05-05-11 1608 4802 3932 4477 2705
05-06-11 1576 3933 3909 4979 2685
05-07-11 95 229 255 496 201
05-08-11 2 0 1 27 0
05-09-11 1438 3785 3589 4174 2215
05-10-11 1342 4043 4009 4665 3033

下面说下如何获取DataFrame里的值:

1.获取某一列: 直接 ['key']

print(ridership_df['R003'])

# 结果:
05-01-11 0
05-02-11 1478
05-03-11 1613
05-04-11 1560
05-05-11 1608
05-06-11 1576
05-07-11 95
05-08-11 2
05-09-11 1438
05-10-11 1342
Name: R003, dtype: int64

2.获取某一行:  .loc['key']

print(ridership_df.loc['05-01-11'])
# 或者
print(ridership_df.iloc[0]) # 结果:
R003 0
R004 0
R005 2
R006 5
R007 0
Name: 05-01-11, dtype: int64

3.获取某一行某一列的某个值:

print(ridership_df.loc['05-05-11','R003'])
# 或者
print(ridership_df.iloc[4,0]) # 结果:
1608

4.获取原始的numpy二维数组:

print(ridership_df.values)

# 结果:
[[ 0 0 2 5 0]
[1478 3877 3674 2328 2539]
[1613 4088 3991 6461 2691]
[1560 3392 3826 4787 2613]
[1608 4802 3932 4477 2705]
[1576 3933 3909 4979 2685]
[ 95 229 255 496 201]
[ 2 0 1 27 0]
[1438 3785 3589 4174 2215]
[1342 4043 4009 4665 3033]]

*注意在这过程中,数据格式如果不一致,会发生转换.

一个综合栗子:

从 ridership_df 找出第一天里客流量最多的车站,然后返回这个车站的日平均客流,以及返回所有车站的平均日客流,作为对比:

def mean_riders_for_max_station(ridership):
max_index = ridership.iloc[0].argmax()
mean_for_max = ridership[max_index].mean()
overall_mean = ridership.values.mean()
return (overall_mean, mean_for_max) print mean_riders_for_max_station(ridership_df) # 结果:
(2342.6, 3239.9)

最新文章

  1. tftp服务器简单安装配置
  2. setImageResource和setBackgroundResource的區別
  3. UVA5870 乱搞 Smooth Visualization
  4. HDU 4533 威威猫系列故事——晒被子
  5. 第二章排错的工具:调试器Windbg(下)
  6. mysql最大连接数问题
  7. phpcms v9栏目列表调用每一篇文章内容方法
  8. python中数字类型与处理工具
  9. Mybatis集成到spring boot
  10. Oracle 安装步骤、安装中错误处理、完整卸载
  11. [SDOI2006] 保安站岗
  12. CCF CSP 201609-1 最大波动
  13. dwr出现session error
  14. Javascript - ExtJs - Ext.form.Panel组件
  15. Delphi过程函数传递参数的几种方式
  16. what does GIT PUSH do exactly?
  17. WPF Tutorial - Using A Visual Collection
  18. jekins 插件离线安装
  19. Proe/Creo 零件库mnu文件制作批处理
  20. 【css a标签 鼠标悬浮时变手型】

热门文章

  1. Unity 之 添加背景音乐 以及 Slider控制
  2. HDU 1051 Wooden Sticks 造木棍【贪心】
  3. DNS信息收集命令nslookup
  4. IdentityServer4-MVC+Hybrid实现Claims授权验证(四)
  5. 推荐一个spring cloud 学习路线,绝对合理化
  6. BZOJ.1016.[JSOI2008]最小生成树计数(Matrix Tree定理 Kruskal)
  7. 洛谷P1395 会议(CODEVS.3029.设置位置)(求树的重心)
  8. Struts2标签里面调用java方法
  9. USBWriter之后恢复磁盘大小
  10. unity 背景无限循环滚动效果