Python数据科学手册-Pandas数据处理之简介
Pandas是在Numpy基础上建立的新程序库,提供了一种高效的DataFrame数据结构
本质是带行标签 和 列标签、支持相同类型数据和缺失值的 多维数组
增强版的Numpy结构化数组
行和列不在只是简单的整数索引,还可以带上标签,
- 三个基本数据结构
Series DataFrame Index
Series
Series将一组数据和一组索引绑定在一起
可以通过values 和 index属性获取数据,
与Numpy数据的区别:Numpy数组通过隐式定义的整数索引获取数值,Pandas 的Series用显示定义的索引与数值关联
Series是特殊的字典
字典是一种将任意键映射到一组任意值的数据结构
Series对象是一种将类型键映射到一组类型值 的数据结构, 类型至关重要。
因为有类型信息,所以比Python字典更高效
可以直接使用Python字典创建一个Series对象
- 和字典不同,Series对象还支持数组形式的操作
创建Series对象
pd.Series(data, index=index)
index是一个可选参数,data参数支持多种数据类型, 可以是列表 或 Numpy数组, index默认值为整数序列
data可以是个标量,创建对象是会重复填充到每个索引上。
data可以是字典,索引是默认的,不排序,老版本的好像对index进行排序了。
每一种形式都可以通过显示指定索引 筛选需要的结果
Pandas的DataFrame对象
也可以作为一个通用型的Numpy数组,也可以看做特殊的Python字典
DataFrame :通用的Numpy数组
Series是 有 灵活索引的一维 数组 , DataFrame是 一种 既有 灵活的行索引,又有灵活列名 的二维数组 。
DataFrame也可以看成 是若干个Series对象。。索引相同。
index属性获取索引标签
DataFrame还有一个columns属性, 是存放列标签的Index对象:
DataFrame :特殊的字典
字典是一个键映射一个值,而DataFrame是 一个列名映射一个Series的数据。
创建DataFrame对象
1)通过单个Series对象创建。DataFrame是一组Series对象的集合
2)通过字典列表创建。 任何元素是字典的列表都可以变成DataFrame
3)通过Series对象常见,开始介绍那样子。
4)通过Numpy二维数组创建
5)通过Numpy结构化数组创建
Pandas的Index对象
Series 和 DataFrame 对象都使用便于引用和调整的 显示索引。
Pandas的Index对象是一个很有趣的数据结构。 可以将它看作是一个 不可变数组 或 有序集合,
1)将Index看作不可变数组
如果修改索引值会报错。对象的不可变性,使得多个DataFrame和数组之间进行索引共享是更加安全
2)将Index看作有序集合
Pandas对象被设计用于实现多操作。 如连接数据集。并集 交集 差集
不过好像不推荐用这种方式了。哈哈
使用对象方法
最新文章
- 开源免费天气预报接口API以及全国所有地区代码!!(国家气象局提供) 【转】
- 《Spring 3.x 企业应用开发实战》目录
- TI Zigbee Light Link 参考设计
- PHP vs Python
- Wonderful Sentense
- Android Error:You must supply a layout_width attribute……
- Xml解析之——Java/Android/Python
- 关于CSRF攻击及mvc中的解决方案 [ValidateAntiForgeryToken]
- 慧都十年大促起幕,Dev、BCG等明星控件6.8折起!
- git镜像仓库
- VS2010编译VS2008工程时,LINK : fatal error LNK1123: failure during conversion to COFF: file invalid or corrupt
- java内存垃圾回收模型
- CDH 集群机器上部署 Jupyter notebook 使用 Pyspark 读取 Hive 数据库
- python机器学习-sklearn挖掘乳腺癌细胞(二)
- ELK安装(windows)
- mysql限制用户只能访问指定数据库
- MVC3学习:Sql Server2005中时间类型DateTime的显示
- AndroidAnnotations库的使用
- win8安装配置python2.7
- 大喜python版opencv3发布,demo脚本抢鲜版发布