模块简介与matplotlib基础

1、基本概念

1.1数据分析

  对已知的数据进行分析,提取出一些有价值的信息。

1.2数据挖掘

  对大量的数据进行分析与挖掘,得到一些未知的,有价值的信息。

1.3数据挖掘过程

  定义目标

  获取数据(爬虫采集或下载统计网站发布的数据)

  数据探索

  数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)

  数据建模(分类、聚类、关联、预测)

  模型评价与发布

1.4模块简介

  numpy可以高效的处理数据、提供数组支持

  pandas主要用于数据探索和数据分析

  matplotlib作图模块,解决可视化问题

  scipy主要进行数据计算,同时支持矩阵运算,提供很多高等处理功能,比如积分、傅里叶变化等

  statsnodels用于统计分析

  Gensim文本挖掘

  sklearn、keras前者机器学习,后者深度学习

1.5模块基本操作

  '''numpy'''

  import numpy

  #创建一维数组格式

  #numpy.array([元素1,元素2,...,元素n])

  x=numpy.array(["a","b","c"])

  #创建二维数据格式

  #numpy.array([[元素1,元素2,...,元素n],[元素1,元素2,...,元素n],[元素1,元素2,...,元素n],...,[元素1,元素2,...,元素n]])

  y=numpy.array([[1,2,3],[4,5,6],[7,8,9]])

  #排序sort

  x.sort()

  y.sort()

  #取最大值和最小值

  y1=y.max()

  y2=y.min()

  #切片

  #数组[起始下标:最终下标+1]

  x[1:3]#取得就是数组的1-2,相当于取得是左闭右开区间的。如果右边不写则取到最后,若左边不写,则从最开始取

  '''pandas'''

  import pandas   #若import pandas as pda,则之后可以使用pd代替pandas

  '''

  Series #index索引

  DataFrame

  '''

  a=pandas.Series([8,9,2,1])

  b=pandas.Series([8,9,2,1],index=[1,2,3,4])#index里面的值可以自由指定

  c=pandas.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,31,2]])

  d=pandas.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,31,2]],columns=["one","two","three","four"])

  e=pandas.DataFrame({

"one":3, #生成3个3,自动补全

"two":[6,2,3],

"three":list(str(982))  #生成9、8、2

  })

  d.head()#头部数据,默认前五行

  #d.head(行数)

  d.tail()#尾部数据,默认后五行

  #d.tail(行数)

  d.describe()#展示数据统计信息

  d.T#对d转置

1.6数据导入

1.6.1导入csv数据

  csv是一种常见的数据存储格式,可以使用pandas导入csv数据

  import pandas as pd

  i=pd.read_csv("文件地址")

  i.sort_value(by="某列的第一个数据") #表示按照某列排序

  j=pd.read_excel(文件地址导入Excel文件

1.6.2导入HTML数据

  使用pandas可以直接从HTML网页中加载对应table表格中的数据

  l=pd.read_html("网址或者本地网页的地址")

1.6.3导入TXT文本数据

  m=pd.read_table("TXT文件地址")

2、折线图、散点图和直方图的绘制

  折线图和散点图用plot,直方图用hist

  下面是直方图的绘制:

最新文章

  1. Atittit.研发公司的组织架构与部门架构总结
  2. 使用IntelliJ IDEA 配置Maven(入门)(转)
  3. ASP.NET MVC 异常Exception拦截器Fillter
  4. windows添加linux 启动引导项
  5. No FileSystem for scheme: 远程访问HDFS找不到shceme
  6. CentOS7上Nginx的使用
  7. Js的History对象
  8. javax.management
  9. 修改Fedora 20 启动项
  10. java split函数应该注意的问题
  11. python 定时服务模块
  12. PHP取一算法
  13. left join inner join 区别
  14. ios打包 上架 了解
  15. js 生成手机图片并保存到相册
  16. BZOJ4182 Shopping(点分治+树形dp)
  17. django模板-自定义标签、过滤器
  18. tensorflow实战系列(三)一个完整的例子
  19. mysql中的 随机字符串的生成
  20. 基于Jmeter跟Jenkins的自动化性能测试的一站式解决方案(转)

热门文章

  1. 不懂怎么创建可视化大屏?手把手教你使用数据可视化BI软件创建工厂车间数据监控大屏
  2. Java虚拟机——JVM
  3. Leetcode字典树-720:词典中最长的单词
  4. 错误:EfficientDet网络出现"No boxes to NMS"并且mAP:0.0的解决方案
  5. java开发病房管理系统
  6. Android中通过Fragment进行简单的页面切换
  7. mysql必知必会--数 据 过 滤
  8. [转载]花了半个月,终于把Python库全部整理出来了,非常全面
  9. 小程序上拉触底&下拉加载
  10. Asp.net core 3.1+EF Core2.2.6+Oracle.EntityFrameworkCore2.1.19连接Oracle数据库