1. 完整的数据分析流程

  • 定义研究问题
  • 定义理想数据集
  • 确定能够获取什么数据
  • 清理数据

2. 变量的类型:

  • 数值变量(可进行加减乘除运算):连续(可在给定区间取任意数值)、离散(给定集合内不连续取值)
  • 分类变量(取值空间有限,不能进行运算):有序(顺序有意义)、无序(不可比较)
1. 数值变量特征和可视化

集中趋势测量(均值、中位数、众数)

均值=(数值之和)/(数值个数)

中位数=排序后位于正中间的一个数(奇数)、排序后位于正中间的两个数的均值(偶数)

众数=出现次数最多的数

分散趋势测量(值域、方差、标准差、四分位距)

举个例子:

其中,中位数、四分位距是稳健统计量,受极端值影响小。

一个数值变量的可视化

柱状图:横坐标表示预测值所有可能的取值,纵坐标表示频数。

点图:横坐标表示预测值所有可能的取值,纵坐标表示出现的次数。比如出现了一次,就会对应一个点。

箱图:展示25%分位点、50%分位点、75%分位点。在范围(25%分位点-1.5四分位距,75%分位点+1.5四分位距)之外的点命异常点。

两个数值变量的关系

散点图:显示方向、形状、强度、极端值。比如正相关、负相关。

2. 分类变量的特征和可视化

一个分类变量可视化

频率表:表格的形式展现数据的分类水平出现的频率。

条形图:横坐标表示分类变量的每一个水平。

两个分类变量的关系

关联表

相对频率表

分段条形图、相对频率的分段条形图

马赛克图

3.一个分类变量一个数值变量

并排箱图:横轴分类变量取值,纵轴为每个分类变量下对应的数值变量。

3. 三大绘图系统

基本绘图系统

艺术家的调色板,绘图始于空白画布。分为两个步骤 = 图+修饰添加 = 执行一系列的函数。适于绘制2D图。

绘图函数(graphics包)---plot/ hist / boxplot /points /lines /text /title / axis,调用函数的时候会启动一个图形设备。

plot(x,y,...),其中重要的参数有:xlab / ylab:x轴y 轴的标签,lwd线宽,lty线的类型(2为虚线),pch点,col颜色。

par(),用于设置全局参数,bg:背景颜色,mar边距,las标签排版,mfrow行列,mfcol列行。

举例子:

hist(airquality$Wind,xlab = "wind")
#一个数值变量的直方图

boxplot(airquality$Wind,xlab="wind",ylab="speed")
#一个数值变量的箱图

boxplot(Wind~Month,airquality)
#一个数值变量一个分类变量的并排箱图,横轴为分类水平。

plot(airquality$Wind,airquality$Temp)
#风速与温度的散点图,也可以写成with函数:
with(airquality,plot(Wind,Temp))

with(subset(airquality,Month==9),points(Wind,Temp,col="red"))
with(subset(airquality,Month==5),points(Wind,Temp,col="blue"))
with(subset(airquality,Month %in% c(6,7,8)),points(Wind,Temp,col="black"))
不同月份的点用不同颜色绘制

fit<-lm(Temp~Wind,airquality)
abline(fit,lwd=2)
#做一条拟合线

legend("topright",pch=1,col = c("red","blue","black"),legend = c("sep","may","other"))
#做图例

par(mfrow=c(1,2))
hist(airquality$Wind)
hist(airquality$Temp)
#将屏幕分为两个部分作图。

最新文章

  1. 冲刺阶段 day 9
  2. 什么是FOUC?如何避免FOUC?///////////////////////////zzzz
  3. C#表达式树的初步了解
  4. Asp.Net Mvc使用Autofac实现依赖注入
  5. Java命令参数说明
  6. 简洁AngularJS框架后台管理系统bootstrap后台模板
  7. Caused by: org.apache.ibatis.builder.BuilderException: Parsing error was found in mapping #{}. Check syntax #{property|(expression), var1=value1, var2=value2, ...}
  8. phpstorm设置背景图片
  9. jquery的show()和hide()方法
  10. Ubuntu编译安装配置Redis以及基本使用
  11. centos 7 修改系统屏幕分辨率
  12. python FileNotFoundError: [WinError 2] 系统找不到指定的文件。
  13. [转] offsetParent 到底是哪一个?
  14. nodejs中创建web服务,监听本地IP
  15. Django 模板语言 标签
  16. 使用net Manager工具配置远程连接oracle
  17. 磁盘 blk_update_request: I/O error
  18. Unity 面试题
  19. 转:sock_ev——linux平台socket事件框架(socket代理类) .
  20. Linux 内核驱动自动创建设备节点并挂载设备

热门文章

  1. Freemaker 开发学习笔记
  2. jeecms v9库内新增对象的流程及其他技巧
  3. 解决编译GCC内存不足的错误
  4. 用this 对方法的扩展
  5. adb命令总结
  6. 可怜的baidu,可怜的音库
  7. sscanf linux-c从一个字符串中读进与指定格式相符的数据
  8. 如何使用log4j记录日志
  9. css的书写位置+元素分类
  10. 双系统可以进入Windows但进入Ubuntu时无法进入系统引导,只有左上角光标闪