一、回归:回归是研究变量间相互关系的方法

1、条件分布:因变量在自变量取不同值时的分布

如果因变量在自变量取不同值时的条件分布都相同,那么自变量对因变量没有影响,否则就是有影响。

比较因变量在自变量取不同值时的条件分布过于复杂,一个简化方法就是

比较自变量取不同值时因变量条件分布的均值——回归

E(y|x) = f(x)

2.线性回归:用线性函数来描述自变量与因变量条件均值的一种回归方法。

3.四条基本假定:最重要的是前2条假定,一旦不满足会导致估计结果有偏。——一定要保证函数设定正确,确保不要遗漏关键变量

(1)线性假定:y的条件均值为x的线性函数:E(y|x) = b0+b1x1+b2x2+...+bkxk

非线性关系可以通过非线性变换转变成线性

(2)正交假定:

(3)独立同分布假定:不满足会导致估计结果没有效率,但仍是无偏的。可以使用其他估计方法(如:OLS)获得有效估计值,或使用稳健标准误获得正确的统计检验结果。

①同方差假定:

②无自相关:

常见的存在自相关的情形:

A.时间序列:同一个观测对象在不同时点得到的结果。

B.整群抽样

(4)正态分布假定:在小样本使才是必须的,否则无法进行统计检验,但大样本时不需要(中心极限定理)

4.回归假定的意义:满足上述假定,通过普通最小二乘法(OLS)得到的回归估计值将有很好的统计性质

(1)满足A1和A2,可以保证OLS估计值的无偏性(样本回归系数=总体均值);

(2)满足A1、A2和A3,可以保证BLUE(最优线性无偏估计——效率最高,标准误最小);

(3)满足A1、A2、A3和A4,可以保证BUE(最优无偏估计)。

回归假定如果不满足,依然可以求解,只是估计值将不具有上述性质。

二、估计回归系数

1.方法:

(1)最小二乘法:寻找一组回归系数使残差平方和最小

(2)最大似然法:寻找一组回归系数使样本结果出现的概率最大

可以证明,这两种方法得到的系数估计值是等价的。

2.regress命令:regress depvar [indepvars] [if] [in] [weight] [,options]

regress后先写因变量,再写自变量

一元回归:

多元回归:

标准化回归系数:

按上述公式手动检验结果:

综上,

非标准化回归系数:stata默认输出的结果。解释为在控制其他变量的情况下,自变量xj变化1个单位,y变化bj个单位。

标准化回归系数:须使用选项beta。解释为在控制其他变量的情况下,自变量xj变化1个标准差,y变化betaj个标准差。

标准化回归系数消除了自变量和因变量测量单位的影响,所以可以比较不同自变量对因变量的相对影响大小

但是,由于不同总体中自变量和因变量的标准差不同,所以无法跨样本比较betaj。

三、拟合系数——R2

1.确定系数 R2:因变量y的残差平方和中被自变量解释掉的百分比

R= RSS/TSS

2.R2的意义

斜率大的模型,自变量的影响大;斜率小的模型,自变量影响小。

R2越大,模型对数据的拟合效果越好,但R2并不是越大越好

例:“布劳-邓肯”地位获得模型:美国的家庭背景对子女地位获得的影响——R2越大,说明家庭背景对子女地位获得的影响越大,说明是一个等级森严、难以跨越的社会;反之,家庭背景对子女地位获得的影响较小,则说明社会较为平等和人才流动。因此,不仅要看R2的统计学意义,还要看所研究的问题的社会学含义

多大的R2可以接受取决于研究的目标:

①如果回归分析的目标是预测,那么R2越大预测越准确、越好;

②如果回归分析的目标是获得某自变量对因变量的真实影响(关键在于模型的假定是否满足),R2是大是小关系并不大。

3.R2的缺陷:随着自变量的增加,R2也会随之增加,无论该自变量对因变量是否有影响

改进:在原始R2的基础上,对自变量数量进行惩罚(Adj R-squared)

——调整后的缺陷:调整后的R2缓解了原始R2的上述缺陷,但它的理论意义并没有原始的R2那么直接

4.其他拟合指标

一些学者认为,调整后的R2对复杂模型的惩罚不够大,因此提出了AIC和BIC两个模型拟合指标

命令:在运行regress后使用estat ic命令可输出AIC和BIC,这两个指标与R2相同,用于判断拟合优度,但AIC和BIC越小,拟合程度越好。

estat ic命令是回归分析后的一种估算命令

最新文章

  1. slf4j log4j logback关系详解和相关用法
  2. c#前3章总结
  3. wpa supplicant 移植
  4. Windows Azure Platform 系列文章目录
  5. 使用RPC 调用NameNode中的方法
  6. Spring JdbcTemplate批量操作数据库
  7. 1像素HR技巧(兼容各浏览器)
  8. jquery之杂记
  9. BZOJ 1560 火星藏宝图(DP)
  10. python的map()函数
  11. 【转】install intel wireless 3165 driver for ubuntu 14.04.3
  12. 将undefault和null的数据转换成bool类型的数据 使用!!
  13. autotools归纳
  14. PAT1116. Come on! Let's C (map)
  15. XamarinForm Effects 调用事件
  16. 小米手机Usb之studio安装不了解决办法
  17. NLog类库使用探索——编程配置
  18. errorC2504未定义基类
  19. LINQ 小项目【组合查询、分页】
  20. MySQL Load Data InFile 数据导入数据库

热门文章

  1. react-native-sortable-list没有渲染数据
  2. APP压力稳定性测试-Monkey
  3. QT个人笔记
  4. 【redis】配置优化及从库优先级
  5. CF1753C Wish I Knew How to Sort
  6. ChatGPT is at capacity right now.ChatGPT Plus subscriber login Add your email for a personalized login link的解决办法
  7. 自己写的垃圾shell
  8. 2.4 在DispatcherServlet的service方法中,通过ServletPath获取对应的Controller对象
  9. iperf3带宽性能检测工具
  10. mysql 获取当月所有日期列表