多元线性回归模型

参数估计

模型表示

我们先将模型

\[y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\cdots+\beta_{p} x_{i k}+\epsilon_{i}, \quad i=1, \cdots, n
\]

表示为下列矩阵形式

\[\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\varepsilon
\]

其中

\[\begin{aligned}
\mathbf{y} &=\left[\begin{array}{c}
y_{1} \\y_{2} \\\vdots \\y_{n}
\end{array}\right], \quad \mathbf{X}=\left[\begin{array}{ccccc}
1 & x_{11} & x_{12} & \cdots & x_{1 k} \\1 & x_{21} & x_{22} & \cdots & x_{2 k} \\\vdots & \vdots & \vdots & & \vdots \\1 & x_{n 1} & x_{n 2} & \cdots & x_{n k}
\end{array}\right] \\
\boldsymbol{\beta}=\left[\begin{array}{c}
\beta_{0} \\\beta_{1} \\\vdots \\\beta_{k}
\end{array}\right], \quad \boldsymbol{\varepsilon}=\left[\begin{array}{c}
\varepsilon_{1} \\\varepsilon_{2} \\\vdots \\
\varepsilon_{n}
\end{array}\right]
\end{aligned}
\]

将上述表示里的 $\beta$ 换成 $\hat{\beta}$ , 则就得到相应的拟合值向量和残差向量

\[\hat{\mathbf{y}}=\mathbf{X} \hat{\beta}, \quad \hat{\varepsilon}=\mathbf{y}-\hat{\mathbf{y}}
\]

于是前面的残差平方和就可以表示为

\[S(\beta)=\sum_{i=1}^{n} \varepsilon_{i}^{2}=\varepsilon^{\prime} \varepsilon=(\mathbf{y}-\mathbf{X} \beta)^{\prime}(\mathbf{y}-\mathbf{X} \beta)=\mathbf{y}^{\prime} \mathbf{y}-2 \beta^{\prime} \mathbf{X}^{\prime} \mathbf{y}+\beta^{\prime} \mathbf{X}^{\prime} \mathbf{X} \beta
\]

求解

经过优化得到 $\beta$ 的闭式解

$\mathbf{X}^{\prime} \mathbf{X} \hat{\beta}=\mathbf{X}^{\prime} \mathbf{y} \Rightarrow \hat{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}$

拟合值向量

拟合值向量为

$\hat{y}=\mathbf{X} \hat{\beta}=\mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} y=H y$

$H$ 为投影矩阵, $Hy$ 相当于把 $y$ 投影到平面

估计的置信区间

由于

\[\frac{\hat{\beta}_{j}-\beta_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)} \sim t_{n-k-1}
\]

所以 $\beta_{j}$ 的 $1-\alpha$ 置信区间为

$\hat{\beta}_{j} \pm t_{n-k-1}(1-\alpha / 2) \cdot \text { s.e. }\left(\hat{\beta}_{j}\right)$

估计的性质

误差的期望与方差：

$E(\varepsilon)=\boldsymbol{0},~Cov(\varepsilon)=\sigma^2I_n$

无偏性

由于

$\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}(\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon})=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon$

所以

$E(\hat{\beta})=\beta+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E(\varepsilon)=\beta$, 为线性估计

方差

因为

$\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}})=\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon$

所以

$(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))^{\prime}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon \varepsilon^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}$

协方差为

\[\begin{array}{c}
\operatorname{Cov}(\hat{\boldsymbol{\beta}})=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E\left(\varepsilon \varepsilon^{\prime}\right) \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \\
=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \sigma^{2} I_{n} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}
\end{array}\]

回归方差的估计

因为

\[\begin{array}{c}
\hat{\varepsilon}=
y-\hat{y} \\
=y-Hy \\
=(I-H)y\\
=(I-H)(X\beta+\varepsilon)\\
=X\beta-X(X'X)^{-1}X'X\beta+(I-H)\varepsilon\\
=(I-H)\varepsilon
\end{array}\]

有

\[\begin{aligned}
E(SS_{res})&=
\hat{\varepsilon}^{\top}\hat{\varepsilon}\\
&=\varepsilon^{\top}(I-H)^{\top}(I-H)\varepsilon\\
&=\varepsilon^{\top}(I-H)\varepsilon
\end{aligned}
\]

所以

\[\begin{aligned}
E\left(SS{\text {res }}\right) &=E\left(\sum_{i}\sum_{j} M_{i j} \varepsilon_{i} \varepsilon_{j}\right) \\
&=\sum_{i}^{n} M_{ii} \sigma^{2} \\
&=\sigma^{2} \operatorname{tr}(M) \\
&=\sigma^{2} \operatorname{tr}(I-H) \\
&=\sigma^{2} \operatorname{tr}(I)-\sigma^{2} \operatorname{tr}(H) \\
&=n \sigma^{2}-\sigma^{2} \operatorname{tr}\left(I_{p}\right) \\
&=(n-p) \sigma^{2} \\
&=\sigma^{2}(n-k-1)
\end{aligned}\]

所以

\[E(\frac{SS_{res}}{(n-k-1)})=\sigma^2
\]

所以方差的估计量为

$\hat{\sigma}^{2}=\frac{1}{n-k-1} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i 1}-\cdots-\hat{\beta}_{k} x_{i k}\right)^{2}$

估计方差性质

无偏性

证明我们要先验证下列这些结论

$E\left(\varepsilon^{\prime} A \varepsilon\right)=\sigma^{2} \operatorname{tr}(A)$

$\operatorname{tr}\left(I_{n}\right)=n$

$\operatorname{tr}(H)=\operatorname{tr}\left(X\left(X^{\prime} X\right)^{-1} X^{\prime}\right)=k+1$ (要用到性质 $\operatorname{tr}(A B)= \operatorname{tr}(B A))$。

$\hat{y}=H y, \quad \hat{\varepsilon}=\left(I_{n}-H\right) \varepsilon$

帽子矩阵 $H$ 和 $I_{n}-H$ 都是对称幂等矩阵

于是

$E\left(S S_{r e s}\right)=E(\hat{\varepsilon}^{\prime} \hat{\varepsilon})=E[\varepsilon^{\prime}(I_{n}-H) \varepsilon]=\sigma^{2} \operatorname{tr}\left(I_{n}-H\right)=\sigma^{2}(n-k-1)$

所以

$E\left(\hat{\sigma}^{2}\right)=\sigma^{2}$

估计的标准误差

$S.E.\left(\hat{\beta}_{i}\right)=\sqrt{\hat{Var(\beta_i)}}=\hat{\sigma} \sqrt{C_{i i}}$

区间估计

响应变量条件均值的置信区间

$\text { 记 } x_{0}=\left(1, x_{01}, x_{02}, \cdots, x_{0 k}\right)^{\prime} \text {, 则 } E\left(y \mid x_{0}\right)=x_{0}^{\prime} \beta$, 所以点估计为 $\hat{y_0}=x_0'\hat{\beta}$

且

$E\left(\hat{y}_{0}\right)=x_{0}^{\prime} \beta, \quad \operatorname{Var}\left(\hat{y}_{0}\right)=x_{0}^{\prime} \operatorname{Cov}(\hat{\beta}) x_{0}=\sigma^{2} x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}$

所以

\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{\sigma \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1)
\]

\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{{\hat{\sigma}} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1}
\]

所以 $E\left(y \mid x_{0}\right)$ 的置信区间为

\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}
\]

未知观测值的置信区间

如果要对给定 $x=x_{0}$ 时的响应变量值进行预测, 则显然点预测交 $\hat{y}_{0}=x_{0}^{\prime} \hat{\beta}$ , 则预测误差为 $e_{0}=y_{0}-\hat{y}_{0}=x_{0}^{\prime} \beta+\epsilon_{0}-x_{0}^{\prime} \hat{\beta}$ 满足

\[E\left(e_{0}\right)=0, \quad \operatorname{Var}\left(e_{0}\right)=\sigma^{2}\left[1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}\right]
\]

于是

\[\frac{y_{0}-\hat{y}_{0}}{\sigma \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1)
\]

\[\frac{y_{0}-\hat{y}_{0}}{\hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1}
\]

从而 $y_{0}$ 的预测区间为

\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}
\]

标准化回归系数

意义

避免只根据回归系数的大小误判解释变量在模型中的重要性

做法

假设标准化之前的回归结果是 $y_{i}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{i 1}+\hat{\beta}_{2} x_{i 2}+\hat{u}_{i}$

由于 $\left(\bar{x}_{1}, \bar{x}_{2}, \bar{y}\right)$ 在样本回归线上, 因此

\[\bar{y}=\hat{\beta}_{0}+\hat{\beta}_{1} \bar{x}_{1}+\hat{\beta}_{2} \bar{x}_{2}
\]

两式相减并除以被解释变量的样本标准差得到

\[\frac{y_{i}-\bar{y}}{\hat{\sigma}_{y}}=\frac{\hat{\sigma}_{x_{1}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 1}-\bar{x}_{1}}{\hat{\sigma}_{x_{1}}}+\frac{\hat{\sigma}_{x_{2}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 2}-\bar{x}_{2}}{\hat{\sigma}_{x_{2}}}+\frac{\hat{u}_{i}}{\hat{\sigma}_{y}}
\]

得到标准化前后估计之间的关系

\[\hat{b}_{j}=\frac{\hat{\sigma}_{x_{j}}}{\hat{\sigma}_{y}} \hat{\beta}_{j}
\]

多重共线性

解释变量之间的近似线性相关关系

影响

当存在完全共线性时，矩阵 $X'X$ 是奇异的；当存在严重的近似共线性时，$X'X$ 就会接近奇异

此时 $\operatorname{Var}(\hat{\beta})$ 作为 $\sigma^{2}\left(X^{\prime} X\right)^{-1}$ 的对角元, 就会比较大。

事实上, 可以证明

\[\operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{S_{x_{j} x_{j}}} \cdot \frac{1}{1-R_{j}^{2}}
\]

其中 $R_{j}^{2}$ 为回归 $x_{j} \sim x_{1}+\cdots+x_{j-1}+x_{j+1}+\cdots+x_{k}$ 的决定系数 $R^{2}$ , 度量了 $x_{j}$ 和其它解释变量之间的共线性程度。

在建模事件中, 把 $1 /\left(1-R_{j}^{2}\right)$ 定义为方差膨胀因子,

\[V I F_{j}=\frac{1}{1-R_{j}^{2}}
\]

通常, 如果 VIF 大于 10 , 可以认为存在较严重的多重共线性。

假设检验

回归显著性检验

所有变量显著性检验

原假设与备择假设

\[\begin{array}{l}
H_{0}: \beta_{1}=\beta_{2}=\cdots=\beta_{k}=0 \\
\leftrightarrow H_{1}: \exists 1 \leq j \leq k, \quad \beta_{j} \neq 0
\end{array}\]

需要构造检验统计量

因为我们假设模型有 $\varepsilon \sim N_n(0,\sigma^2I_n)$

因此有

\[\frac{SS_{res}}{\sigma^2}=\frac{\varepsilon'(I_n-H)\varepsilon}{\sigma^2}=\frac{\varepsilon'Q\Sigma Q^\top\varepsilon}{\sigma^2}=\frac{(Q^\varepsilon)'}{\sigma}\Sigma\frac{Q^\top\varepsilon}{\sigma}=y'\Sigma y=\sum_{i=1}^{n-p}y_i^2\sim\chi^2(n-p)
\]

因此构造$$F_{0}=\frac{M S_{r e g}}{M S_{r e s}}=\frac{S S_{r e g} / k}{S S_{r e s} /(n-k-1)} \stackrel{H_{0}}{\sim} F_{k, n-k-1}$$

当原假设成立时, $F_0$ 会小, 所以当 $F_0>F_{k,n-k-1}(1-\alpha)$, 拒绝原假设

单个变量显著性检验

原假设与备择假设

\[H_{0}: \beta_{j}=0 \leftrightarrow H_{1}: \beta_{j} \neq 0
\]

检验统计量

\[t_{0}=\frac{\hat{\beta}_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}}{\sigma \sqrt{C_{j j}}} \cdot \frac{\sigma}{\hat{\sigma}}=\frac{\hat{\beta}_{j} / \sigma \sqrt{C_{j j}}}{\sqrt{\frac{1}{n-k-1} \cdot \frac{S S_{r e s}}{\sigma^{2}}}} \stackrel{H_{0}}{\sim} t_{n-k-1}
\]

当 $t_0>t_{n-k-1}(1-\alpha/2)$, 拒绝原假设

子集显著性检验 (检验解释变量的某个子集是联合不显著的)

原假设与备择假设

\[H_{0}: \beta_{3}=0, \beta_{4}=0, \beta_{5}=0
\]

检验原理:

无约束的模型相对于约束模型添加了三个变量，这将导致模型拟合优度的增加，即残差平方和的减小和回归平方和的增大，我们可以通过比较这两个模型残差平方和的差值是否足够大来检验原假设是否可以被拒绝，如果足够大，就意味着新加入模型的三个变量（对模型拟合的影响）是显著的.

检验统计量

\[F_{0}=\frac{\left(S S_{r e s}^{H_{0}}-S S_{r e s}\right) / r}{S S_{r e s} /(n-k-1)}
\]

当 $F0$ 大于 $F_{r,n−k−1}$ 分布的 $(1 − α)$ 分位点时，拒绝原假设.

当 $r =1$ 时，上面的 $F$ 检验和 $t$ 显著性检验是等价的，事实上， $F_{1,n−k−1} = t^2_{n−k−1}$.

拟合优度改进

$R^2$ 原本存在的问题

当添加的变量与解释变量无关或其对解释变量的影响不显著时，这种拟合优度上的增加就是没有意义的

因此我们需要对传统的 $R^2$ 进行改进

$R_{adj}$

\[R^{2}=\frac{S S_{r e g}}{S S_{T}}=1-\frac{S S_{r e s}}{S S_{T}}, \quad R_{a d j}^{2}=1-\frac{S S_{\text {res }} /(n-k-1)}{S S_{T} /(n-1)}
\]

通过添加自由度来调整

巴特西

回归分析 3.X 多元线性回归

多元线性回归模型

参数估计

模型表示

求解

拟合值向量

估计的置信区间

估计的性质

无偏性

方差

回归方差的估计

估计方差性质

无偏性

估计的标准误差

区间估计

响应变量条件均值的置信区间

未知观测值的置信区间

标准化回归系数

意义

做法

多重共线性

影响

假设检验

回归显著性检验

所有变量显著性检验

单个变量显著性检验

子集显著性检验 (检验解释变量的某个子集是联合不显著的)

拟合优度改进

\(R^2\) 原本存在的问题

\(R_{adj}\)

最新文章

热门文章