机器学习之pandas介绍
pandas简介
pandas全称python Data Analysis Library,是基于numpy的一种工具,pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具。
pandas最初由AQR Captal Management于2008年4月开发,并于2009年地开源出来,最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。
pandas提供了大量能使我们快速便捷地处理数据的函数和方法,它是使python成为强大而高效的数据分析环境的重要因素之一。pandas库是统计科学家在分析数据时的理想工具,非常适合应用于数据清洗,分析/建模。
适用数据集
pandas适合处理多种类型的数据:①具有不同数据类型序列的表格数据,如SQL表或Excel电子表格;②有序或无序(不固定频率)的时间序列数据;③带有行和列标签的任意矩阵数据;④任何其他形式的观测/统计数据集。
pandas的优势
①可以轻易的处理浮点及非浮点数据类型的缺失值(NaN);
②大小可变:DAtaFrame和Panel都可以删除或插入列;
③数据自动对齐;灵活强大的分组功能,可对数据集进行拆分组合操作
④将其他的python和numpy数据结构中不同类索引的数据转换为DataFrame对象
⑤基于智能标签的切片,花式索引,轻易从大数据集中取出子集;
⑥直观的合并,连接数据集;
⑦轻易的重新定义数据集形状和转置;
⑧轴(axes)的分层标签(是每个元组有多个标签成为可能),然后将分析结果组织成适合于绘图或表格显示的形式的全部过程。
pandas的数据结构
①Series 一维
②DataFrame 二维
③Panel 三维
pandas的调库
import pandas as pd
pd.Series() #创建一个空系列
pd.DataFrame() #创建一个空的数据帧
最新文章
- 华为oj 刷题记录之合唱团
- 敏捷开发与jira之项目现状
- php就业网版本已改版成功
- Win7 关闭Window update
- 使用 CSS3 打造一组质感细腻丝滑的按钮
- Objective-C(NSString、BOOL、多文件开发)
- 【LeetCode】169 - Majority Element
- 解决JSP页面图片缓存问题
- sinaBlog中小知识总结
- C# WInform 界面左导航菜单
- ThreeJS的特效合成器和后期处理通道
- 提取DirectShow中视频采集的数据
- 线程的私有领地 ThreadLocal
- RobotFramework自动化测试框架-Selenium Web自动化(-)-Open Browser和Close Browser
- 思科模拟器PacketTracer7-----2台PC通过交叉线互连
- python线程的同步事件Event
- 【Oracle】Linux7安装11g 86%报错:Error in invoking target 'agent nmhs' of makefile
- Programming | 中/ 英文词频统计(MATLAB实现)
- 1021. Deepest Root (25)
- java web 中 filter 与 servlet的关系
热门文章
- 安装kvm后,在windows主机启动virt-manger后报错(no polkit agent available to authenticate action org.libvirt.unix.manage)
- 【GROMACS】分子动力学模拟①——环境搭建
- CCF 201909-2	小明种苹果(续)
- 一套.NET Core +WebAPI+Vue前后端分离权限框架
- 使用 WSDL 指定的标准 SOAP 消息格式
- flutter Stack 绝对布局的使用
- ubuntu常用操作
- 计算机科学导论-第三版-学习笔记-chapter2-数字系统
- (一)从路由器和IP地址开始折腾
- Google big query - 怎么创建临时表/create temp table