模块简介与matplotlib基础
模块简介与matplotlib基础
1、基本概念
1.1数据分析
对已知的数据进行分析,提取出一些有价值的信息。
1.2数据挖掘
对大量的数据进行分析与挖掘,得到一些未知的,有价值的信息。
1.3数据挖掘过程
定义目标
获取数据(爬虫采集或下载统计网站发布的数据)
数据探索
数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)
数据建模(分类、聚类、关联、预测)
模型评价与发布
1.4模块简介
numpy可以高效的处理数据、提供数组支持
pandas主要用于数据探索和数据分析
matplotlib作图模块,解决可视化问题
scipy主要进行数据计算,同时支持矩阵运算,提供很多高等处理功能,比如积分、傅里叶变化等
statsnodels用于统计分析
Gensim文本挖掘
sklearn、keras前者机器学习,后者深度学习
1.5模块基本操作
'''numpy'''
import numpy
#创建一维数组格式
#numpy.array([元素1,元素2,...,元素n])
x=numpy.array(["a","b","c"])
#创建二维数据格式
#numpy.array([[元素1,元素2,...,元素n],[元素1,元素2,...,元素n],[元素1,元素2,...,元素n],...,[元素1,元素2,...,元素n]])
y=numpy.array([[1,2,3],[4,5,6],[7,8,9]])
#排序sort
x.sort()
y.sort()
#取最大值和最小值
y1=y.max()
y2=y.min()
#切片
#数组[起始下标:最终下标+1]
x[1:3]#取得就是数组的1-2,相当于取得是左闭右开区间的。如果右边不写则取到最后,若左边不写,则从最开始取
'''pandas'''
import pandas #若import pandas as pda,则之后可以使用pd代替pandas
'''
Series #index索引
DataFrame
'''
a=pandas.Series([8,9,2,1])
b=pandas.Series([8,9,2,1],index=[1,2,3,4])#index里面的值可以自由指定
c=pandas.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,31,2]])
d=pandas.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,31,2]],columns=["one","two","three","four"])
e=pandas.DataFrame({
"one":3, #生成3个3,自动补全
"two":[6,2,3],
"three":list(str(982)) #生成9、8、2
})
d.head()#头部数据,默认前五行
#d.head(行数)
d.tail()#尾部数据,默认后五行
#d.tail(行数)
d.describe()#展示数据统计信息
d.T#对d转置
1.6数据导入
1.6.1导入csv数据
csv是一种常见的数据存储格式,可以使用pandas导入csv数据
import pandas as pd
i=pd.read_csv("文件地址")
i.sort_value(by="某列的第一个数据") #表示按照某列排序
j=pd.read_excel(文件地址导入Excel文件
1.6.2导入HTML数据
使用pandas可以直接从HTML网页中加载对应table表格中的数据
l=pd.read_html("网址或者本地网页的地址")
1.6.3导入TXT文本数据
m=pd.read_table("TXT文件地址")
2、折线图、散点图和直方图的绘制
折线图和散点图用plot,直方图用hist
下面是直方图的绘制:
最新文章
- Atittit.研发公司的组织架构与部门架构总结
- 使用IntelliJ IDEA 配置Maven(入门)(转)
- ASP.NET MVC 异常Exception拦截器Fillter
- windows添加linux 启动引导项
- No FileSystem for scheme: 远程访问HDFS找不到shceme
- CentOS7上Nginx的使用
- Js的History对象
- javax.management
- 修改Fedora 20 启动项
- java split函数应该注意的问题
- python 定时服务模块
- PHP取一算法
- left join inner join 区别
- ios打包 上架 了解
- js 生成手机图片并保存到相册
- BZOJ4182 Shopping(点分治+树形dp)
- django模板-自定义标签、过滤器
- tensorflow实战系列(三)一个完整的例子
- mysql中的 随机字符串的生成
- 基于Jmeter跟Jenkins的自动化性能测试的一站式解决方案(转)
热门文章
- 不懂怎么创建可视化大屏?手把手教你使用数据可视化BI软件创建工厂车间数据监控大屏
- Java虚拟机——JVM
- Leetcode字典树-720:词典中最长的单词
- 错误:EfficientDet网络出现";No boxes to NMS";并且mAP:0.0的解决方案
- java开发病房管理系统
- Android中通过Fragment进行简单的页面切换
- mysql必知必会--数 据 过 滤
- [转载]花了半个月,终于把Python库全部整理出来了,非常全面
- 小程序上拉触底&;下拉加载
- Asp.net core 3.1+EF Core2.2.6+Oracle.EntityFrameworkCore2.1.19连接Oracle数据库