概率论复习

概率(Probability)

频率学派(Frequentist):由大量试验得到的期望频率(致命缺陷:有些事情无法大量试验,例如一封邮件是垃圾邮件的概率,雷达探测的物体是一枚导弹的概率);
贝叶斯学派(Bayesian):基于已有信息而对预测结果的不确定性;

离散随机变量(Discrete Random Variables)

设\(X \in \left \{x_{1},\ x_{2},\ ...,\ x_{n} \right \}\) 为离散随机变量

概率质量函数(Probability Mass Function)

\[f_{X}(x) = P(X = x),\quad where\ 0 \leqslant P(X = x) \leqslant 1\]
\[\sum_{i=1}^{n}f_{X}(x_i)=1\]

联合概率(Joint Probability)

\[P(X = x, Y = y)\]

边缘概率(Marginal Probability)

\[P(X = x) = \sum_{y}{P(X = x, Y = y)} = \sum_{y}{P(X = x|Y = y)P(Y = y)}\]

条件概率(Conditional Probability)

\[P(X = x|Y = y) = \frac{P(X = x, Y = y)}{P(Y = y)}\]

贝叶斯理论(Bayes‘ Theorem)

\[P(X = x|Y = y) = \frac{P(Y = y|X = x)P(X = x)}{P(Y = y)}\]

独立与条件独立(Independence and Conditional Independence)

无条件独立

\[X \perp Y \leftrightarrow P(X, Y) = P(X)P(Y)\]

即:联合概率等于边缘概率之积

随机变量间的无条件独立在现实中十分罕见,概率模型中的变量(X=是否下大雨,Y=是否打球)间通常都存在互相影响的因素。
但这些因素大多是通过其他变量(如 Z=是否在室外)间接影响。

条件独立

\[X \perp Y|Z \leftrightarrow P(X, Y|Z) = P(X|Z)P(Y|Z)\]

即:条件联合密度等于条件边缘密度之积

例子:X = 是否下大雨,Y = 是否打球,Z = 是否在室外;
如果我们知道 Z,则预测 X 不需要知道 Y,预测 Y 也不需要知道 X,亦即 X 与 Y 在 Z 的条件下独立。

连续随机变量(Continuous Random Variables)

概率密度函数(Probabilistic Density Function)

\[f(x) = p(X = x)\]
\[\int_{-\infty}^{+\infty}f(x)\mathrm{d}x = 1\]

累积分布函数(Accumulative Distribution Function)

\[F(x) = P(X \leqslant x) = \int_{-\infty}^{x}f(x)\mathrm{d}x\]
ADF 是 单调递增函数(monotonically increasing function)

期望(Expectation)

期望亦即平均值(Mean)。

  • 对于离散随机变量:
    \[E(X) = \sum_{x}{xP(X=x)} \triangleq \mu\]
  • 对于连续随机变量:
    \[E(X) = \int_{-\infty}^{+\infty}xf(x)\mathrm{d}x \triangleq \mu\]

方差(Variance)

方差用来描述一个分布的“分散程度”(亦即“集中程度”)

\begin{align*}\notag
D(X) &= E[(X - \mu)^2] \triangleq \sigma^2 \\
&= E(X^2) - \mu^2
\end{align*}

分位数(Quantiles)

设 \(F(x)\) 是 CDF,\(F^{-1}(\alpha)\) 是 \(F(x)\) 的反函数,则 \(\alpha\) 是累计概率 \(F(x_{\alpha})\),也是概率密度的积分(即面积)。

\[\alpha=F(x_{\alpha}) = \int_{-\infty}^{x_{\alpha}}f(x)\mathrm{d}x\]


二元数据模型(Binary Data Model)

二元随机变量 (Binary Random Variable)是指随机变量\(X \in \{0, 1\}\),例如抛硬币的正、反面两种结果,某单词在文档中出现与不出现两种结果。

二项分布(Binomial Distribution)

已知某事件的发生概率与不发生概率分别为 \(\theta\) 和 \((1- \theta)\),
若 \(X \sim Bin(n, \theta)\),则称\(X\) 服从概率为\(\theta\)和\((1- \theta)\),试验次数为\(n\) 的二项分布

设某随机变量 \(X\) 服从二项分布,其 PMF(概率质量函数)为:
\[Bin(x|n;\theta) = C_{n}^{x} \cdot \theta^{x} (1-\theta)^{n-x}, \quad where \ C_{n}^{x} = \frac{n!}{(n-x)!x!}, \quad x = 0, 1, ..., n\]
该离散函数的每个点都表示\(n\)次试验下该事件发生\(x\)次的概率。

伯努利分布(Bernoulli Distribution)

当二项分布的\(n=1\)时,称此特殊的二项分布为伯努利分布,其 PMF 为:

\[Ber(x;\theta) = \theta^{x} (1-\theta)^{1-x}, \quad where \ \in \{0, 1\}\]

一个自然的问题是:如何估计\(\theta\)这个参数的值呢?

对伯努利模型的参数估计(Parameter Estimation)

考虑对一个伯努利事件的\(n\)次观察值:\(D = \{x_{1}, x_{2}, ..., x_{n}\} \quad where \ x \in \{0, 1\}\)

最大似然估计(Maximum Likelihood Estimation)

假设每个观测值独立同分布(Independent Identical Distribution),我们可以写出这些观测值在伯努利模型下的似然性(likelihood):
\[p(D| \theta) = \prod_{i=1}^{n} p( x_{i} | \theta ) = \prod_{i=0}^{n} \theta^{x_i}(1-\theta)^{1-x_i}\]

定义似然函数:
\[L(\theta) = logp(D|\theta) = \sum_{i=0}^{n} x_i log\theta + (1-x_i) log(1-\theta)\]

我们需要找到\(p(D| \theta)\)关于\(\theta\)的最大似然估计值:
\[Set \ \frac{\mathrm{d} L(\theta)}{\mathrm{d} \theta} = 0,\quad\ we\ obtain \\
\hat{\theta} = \frac{1}{n}\sum_{i=1}^{n}x_i\]

即\(x=1\)在所有观测值中出现的比例。

  • 最大似然估计方法存在的问题
    在某些情况,尤其是当数据量比较小时,可能会出现\(x=1\)从未出现的情况。(例如掷3次硬币都是反面,Volleyball 在5篇体育类新闻中均未出现)
    此时很明显出现了过拟合(Overfitting)。
    解决方案:“平滑处理”(Smooth)(依据?)——用参数\(\theta\)的先验(prior)做贝叶斯推断(Bayesian Inference)

贝叶斯推断(Bayesian Inference)

β分布(Beta Distribution)

β分布定义在区间\([0, 1]\)之间:
\[Beta(x|a,b) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}, \\
where \quad B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} \quad a, b > 0\]

其数字特征(Numerical Characteristic)分别为
\[\mu = \frac{a}{a+b}\\
\sigma = \frac{ab}{(a+b)^2(a+b+1)}\]

  • 当\(a = b=1\)时,我们得到的是均匀分布;
  • 当\(a, b < 1\)时,我们得到的是双峰分布(峰值在\(x=0, x=1\)处);
  • 当\(a, b > 1\)时,我们得到的是单峰分布;
β-伯努利模型(Beta-Bernoulli Model)
  • 似然概率(Likelihood)

假设观测数据 iid,则似然概率可以写为:
\[p(D|\theta) = \theta^{n_1}(1-\theta)^{n_0} \\
where \quad n_1 = \sum_{i=1}^{n} \mathbb{I}(x_i = 1), \quad n_0 = \sum_{i=1}^{n} \mathbb{I}(x_i = 0)\]
\(n_0\),\(n_1\)分别表示\(D\)中\(x=0\),\(x=1\)出现的次数。(很明显,\(n = n_0 + n_1\))
这两个数字称为数据\(D\)的充分统计量(Sufficient Statistics),意思是我们只需要这两个统计量,就可以得到推断\(\theta\)所需要的关于数据\(D\)的全部信息。

  • 先验概率(Prior)

首先,我们需要先验定义在区间\([0, 1]\)之间。其次,如果先验和似然的形式相同,即类似于这种:
\[p(\theta) \propto \theta^{\gamma_1}(1-\theta)^{\gamma_0}\\
where \quad \gamma_1\ and\ \gamma_0\ are\ some\ parameters\]
我们就可以方便地求出后验概率(指数相加即可):
\[p(\theta|D) \propto p(\theta)p(D|\theta) = \theta^{N_1+\gamma_1} \theta^{N_0+\gamma_0}\]
这种似然形式相同的先验,我们称之为共轭先验(Conjugate Prior)
对于伯努利模型,其共轭先验就是上面提到的β分布:
\[Beta(\theta|a,b) \propto \theta^{a-1} (1-\theta)^{b-1}\]

  • 后验概率(Posterior)

根据先验、似然、贝叶斯公式,我们可以求出后验概率:

\begin{align*}\notag
p(\theta|D,a,b) &= \frac {p(\theta|a, b)p(D|\theta)} {p(D, a, b)}\\
&= \frac {p(\theta|a, b)p(D|\theta)} {\int_0^1p(\theta|a, b)p(D|\theta,a,b) \mathrm{d}x}\\
&= Beta(\theta|n_1+a, n_0+b)
\end{align*}

\(a, b\)可视为伪计数(Pseudo Count),假设先验服从均匀分布,即先验参数\(a=1,b=1\),此时相当于对数据做拉普拉斯平滑(Laplace Smoothing),也叫 Laplace’s Rule of Succession。

  • Bayesian Sequential Update
    使用分批(Batch)数据 \(D_i \quad i = 1, 2, ..., N\) 更新后验概率:

\begin{align*}\notag
p\left (\theta \bigg\rvert \bigcup_{i=1}^{N}D_i,a,b\right ) &\propto \theta^{a-1+\sum_{i=1}^{N}n_{1i}} (1-\theta)^{b-1+\sum_{i=1}^{N}n_{0i}}\\
&\propto Beta\left (\theta \ \bigg\rvert \ a+\sum_{i=1}^{N}n_{1i}, b+\sum_{i=1}^{N}n_{0i}\right )
\end{align*}

  • Bayesian Predictions —— 后验预测分布(Posterior Predictive Distribution)
    预测下一次伯努利试验结果
    \[p(x=1|D, a,b) = \int_0^1 p(x=1|\theta)p(\theta|D,a,b)\mathrm{d}\theta\]

\begin{align*}\notag
p(\hat{x}=1|D, a,b) &= \int_0^1 p(x=1|\theta)p(\theta|D,a,b)\mathrm{d}\theta\\
&= \int_0^1 \theta Beta(\theta|n_1+a,n_0+b) \mathrm{d}\theta\\
&= \mathbb{E}(\theta|D) = \frac{n_1+a}{n_1+a+n_0+b}
\end{align*}

由此可见,当\(n_0, n_1 \gg b, a\)时,先验的作用可忽略不计。


类别数据模型(Categorical Data Model)

类别随机变量(Categorical Random Variable)多元随机变量 (Categorical Random Variable) 的离散形式,是指随机变量\(X\)存在K种状态,例如掷K面体的骰子有K种结果,某单词在长度为K的词汇(Vocabulary)中出现。(通常使用 One-hot Encoding 表示不同状态)

狄利克雷分布(Dirichlet Distribution)

狄利克雷分布是多元普遍化(Multivariate Generalization)的β分布,定义在 Probability Simplex 上:
\[S_K = \{x:0 \leqslant x_k \leqslant 1 \ \wedge \ \sum_{k=1}^{K} x_k = 1 \}\]

其 PDF 定义为:
\[Dir(\vec{x}|\vec{\alpha}) = \frac{1}{B( \vec{\alpha} )} \prod_{k=1}^K x_k^{ \alpha_k -1 } \mathbb{I}(x \in S_K)\\
where \quad B(\vec{\alpha}) = \frac{\prod_{k=1}^K \Gamma(\alpha_k)}{\Gamma(\sum_{k=0}^K\alpha_k)} \quad a, b > 0\]
\(\alpha_k\): 某元素值的大小 \(\alpha_k\) 决定曲面的峰值离该元素有多近。如果\(\vec{\alpha}\) 中所有元素都小于1,则曲面呈凹形,每个元素的位置都有一个尖端。

\(\sum_{k=0}^K\alpha_k\): \(\vec{\alpha}\) 中所有元素之和越大,则曲面越陡峭;


上图是5维对称狄利克雷分布的采样样例,左图参数为 \(\vec{\alpha}=(0.1, 0.1, 0.1, 0.1, 0.1)\),分布非常稀松(sparse);右图参数为\(\vec{\alpha}=(1.0, 1.0, 1.0, 1.0, 1.0)\),分布均匀(uniform)且密集(dense)。

数字特征为:
\[
\mu=\frac{\alpha_k}{\alpha_{sum}}\\
\sigma = \frac{\alpha_k(\alpha_{sum}-\alpha_k)}{\alpha_{sum}^2(\alpha_{sum}+1)}
\]

狄利克雷-多项分布模型(Dirichlet-Multinomial Model

某数据集中有 \(n\) 个数据点(data case)\(D=\{x_1, ..., x_n\}\);而 \(x_i\in \{1, ..., K\}\) 表示一次试验(一个数据点)有\(K\)种可能事件,通常使用 one-hot encoding;参数\(\theta\)定义在 Probability Simplex 上。

似然概率(Likelihood)

假设每条数据 iid,则可得到似然概率:
\[
P(D|\theta)=\prod_{k=1}^K \theta_k^{\sum_{i=1}^nx_{ik}}=\prod_{k=1}^K \theta_k^{n_k}
\]
\(n_k\) 表示第 \(k\) 种事件发生的次数。这也是模型的充分统计量(Sufficient Statistics)

先验概率(Prior)

参数 \(\vec\theta\) 可视为 \(K\) 维向量,上面得到的似然概率是 \(K\) 个带指数参数相乘的形式。我们需要一个与似然概率形式相同的共轭先验,而狄利克雷分布的PDF正好满足这一点。因此可以借用狄利克雷分布:
\[
Dir(\vec{\theta}|\vec{\alpha}) = \frac{1}{B( \vec{\alpha} )} \prod_{k=1}^K \theta_k^{ \alpha_k -1 } \mathbb{I}(x \in S_K)
\]

后验概率(Posterior)

后验正比于先验和似然之积:

\[
\begin{align*}\notag
P(\theta|D) &\propto P(\theta)P(D|\theta)\\
&\propto \frac{1}{B( \vec{\alpha} )} \prod_{k=1}^K \theta_k^{ \alpha_k -1 }\theta_k^{n_k}\\
&\propto \frac{1}{B( \vec{\alpha} )} \prod_{k=1}^K \theta_k^{ (\alpha_k+n_k) -1 }\\
&\propto Dir(\vec{\theta}|\vec{\alpha}+\vec n)
\end{align*}
\]

\(\vec n\)是数据集 \(D\) 的充分统计量,\(\vec\alpha\) 相当于 pseudo count

后验预测分布(Posterior Predictive Distribution)

预测下一次试验结果是第 \(k\) 种事件发生的概率:

\begin{align*}\notag
P(x=k|D, \vec \alpha)&=\int_{\vec{\theta}} P(x=k|\vec \theta)P(\vec \theta|D,\vec \alpha) \mathrm{d}\vec \theta \\
&= \frac{\alpha_k+n_k}{\sum_k(\alpha_k+n_k)}
\end{align*}

\(\alpha_k\) 就是该 feature 的 pseudo count。


Written with StackEdit.

最新文章

  1. .NET程序的性能要领和优化建议
  2. C#入门经典Lambda
  3. Quartus13.0破解方法
  4. redis window环境下的安装地址
  5. pgpool常用命令
  6. mysql语法充电
  7. java 中读取本地文件中字符
  8. 5种IE hasLayoutt的属性及其值
  9. Linux 文本处理工具(grep sed awk )
  10. CRM项目-1模型与站点管理
  11. hadoop2.6.0实践:引入开发依赖的jar包
  12. Python-list,字典,Tuple
  13. poj 3087 Shuffle&#39;m Up (模拟过程)
  14. #个人博客作业Week3——必应词典案例分析
  15. ArcGIS 10——版本编辑流程
  16. Django 框架中定时触发脚本
  17. ViZDoom安装
  18. IIS记录
  19. 750. Number Of Corner Rectangles四周是点的矩形个数
  20. shell中的数值运算

热门文章

  1. mac 无法写入设备的最后一个块 格式化
  2. app后端api设计【转】
  3. Linux CentOs下安装lamp
  4. 路由(二) router-link的使用
  5. 【Flume】数据采集引擎Flume
  6. opencv移植(二)
  7. [转]Visual C++ 和 C++ 有什么区别?
  8. 最小生成树——Kruscal(克鲁斯卡尔算法)
  9. JavaWeb——升级赛-学生成绩管理系统(2).java---19.01.03
  10. BZOJ1924_所驼门王的宝藏_KEY