2022-03-24 15:04 快手_算法工程师

关注

面经之极大似然估计

上周有读者私信我说，面试被问到了极大似然估计没回答出来，虽然网上有很多讲解，但是不大能看得懂，而且有一些疑问没有解释清楚。那么今天困哥就专门整理了一篇文章，来详细介绍一下极大似然估计，顺带介绍一下极大后验估计和贝叶斯估计。牛客的markdown对公式渲染的很丑，原文请阅读【千字讲解极大似然估计】

在很多的机器学习问题种，输入x是一个向量，输出p(x)为某一个时间的概率（比如，x属于某个类别的概率）

一观测的数据集D，其中x1，x2，x3……独立同分布。我们将输入x所满足的概率分布建模为p(D,θ)，则对新输入的预测为p(x|D,θ)，其中θ是一个向量，表示待去顶的所有模型参数。那么如何求解或者估计出θ的值呢？

1. 频率学派VS贝叶斯学派

对于θ的本质不同认识，可以分为两个大派别。

（1）频率学派：认为θ是确定的，有一个真实值，目标是找出或者逼近这个真实值。

（2）贝叶斯学派：认为θ是不确定的，不存在唯一的真实值，而是服从某一个概率分布。

基于不同学派对参数的不同认识，产生了不同的参数估计方法。下面将讨论三种参数估计方法：

（1）极大似然估计：MLE（Maximum Likelihood Estimation）【频率学派】

（2）极大后验估计：MAP（Maximum A Posterior）【贝叶斯学派】

（3）贝叶斯估计：BE（Bayesian Estimation）【贝叶斯学派】

其中，涉及到先验、似然、后验、贝叶斯公式的知识。

先验：p(θ)，指在见到数据集D之前，对参数θ的认识

似然：p(D|θ），在给定参数θ下，数据集D被观测到的概率

后验：p(θ|D)，在见到数据集D之后，对参数θ的重新认识

贝叶斯公式： $p(\theta \mid D)=\frac{p(D \mid \theta) \times p(\theta)}{p(D)}$

2. 举例

以抛硬币为例，假设我们有一枚硬币, 现在要估计其正面朝上的概率 $\theta$ 。为了对 $\theta$ 进行估计, 我们进行了10次实验 (独立同分布, i.i.d.) , 这组实验记为 $X=x_{1}, x_{2}, \ldots, x_{10}$ , 其中正面朝上的次数为6次，反面朝上的次数为4次，结果为 $(1,0,1,1,0,0,0,1,1,1)$ 。

3. 极大似然估计

MLE的逻辑是：真实的参数θ是唯一的，既然数据集D被观测到了，那么真实参数θ对应的概率分布一定是可以使D出现的概率最大。即 $\begin{aligned} \hat{\theta}_{M I E} &=\underset{\theta}{\arg \max } p(D, \theta) \\ &=\arg \max _{\theta} p\left(x_{1}, \theta\right) p\left(x_{2}, \theta\right) \cdots p\left(x_{N}, \theta\right) \\ &=\arg \max _{\theta} \log \prod_{i=1}^{N} p\left(x_{i}, \theta\right) \\ &=\underset{\theta}{\arg \min }-\log \prod_{i=1}^{N} p\left(x_{i}, \theta\right) \end{aligned}$
最后一行的目标函数，是常用的形式。对似然求log是防止数值下溢，因为似然是各个样本点处概率乘积的形式，而概率都在0到1之间，似然通常会超出计算机的精度范围。另一方面，log是一个凸函数，保证了极大化似然和极大化对数似然的等价。

针对抛硬币的问题，似然函数可写作： $L(X ; \theta)=\prod_{i=0}^{n} P\left(x_{i} \mid \theta\right)=\theta^{6}(1-\theta)^{4}$
根据最大似然估计, 使 $L(X ; \theta)$ 取得最大值的 $\theta$ 即为估计结果, 令 $L(X ; \theta) \prime=0$ 可得 $\hat{\theta}=0.6$ 。

由于总体的似然就是每个样本似然的乘积，为了求解方便，我们通常会将似然函数转成对数似然函数，然后再求解。可以转成对数似然函数的主要原因是对数函数并不影响函数的凹凸性。因此上式可变为： $\begin{aligned} \ln L(X ; \theta) &=\ln \prod_{i=0}^{n} P\left(x_{i} \mid \theta\right)=\sum_{i=0}^{n} \ln \left(P\left(x_{i} \mid \theta\right)\right)=6 \ln (\theta)+4 \ln (1-\theta) \\ \end{aligned}$
令 $\ln (L(X ; \theta) \prime) =0$ 可得 $\hat{\theta}=0.6$

补充：正态分布的最大似然估计：

假设样本服从正态分布 $N \sim\left(\mu, \sigma^{2}\right)$ , 则其似然函数为 $L\left(\mu, \sigma^{2}\right)=\prod_{i=0}^{n} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}}$
对其取对数得： $\ln L\left(\mu, \sigma^{2}\right)=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \left(\sigma^{2}\right)-\frac{1}{2 \sigma^{2}} \sum_{i=0}^{n}\left(x_{i}-\mu\right)^{2}$
分别对 $\mu, \sigma^{2}$ 求偏导，并令偏导数为0, 得: $\left\{\begin{array}{l} \frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \mu}=\frac{1}{\sigma^{2}} \sum_{i=0}^{n}\left(x_{i}-\mu\right)=0 \\ \frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \sigma^{2}}=-\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=0}^{n}\left(x_{i}-\mu\right)^{2}=0 \end{array}\right.$
解得: $\left\{\begin{array}{l} \hat{\mu}=\frac{1}{n} \sum_{i=0}^{n} x_{i}=x^{2} \\ \hat{\sigma^{2}}=\frac{1}{n} \sum_{i=0}^{n}\left(x_{i}-x^{2}\right)^{2} \end{array}\right.$
$\widehat{\mu}, \widehat{\sigma^{2}}$ 就是正态分布中 $\mu, \sigma^{2}$ 的最大似然估计。

最大似然估计的求解步骤：

确定似然函数
将似然函数转换为对数似然函数
求对数似然函数的最大值（求导，解似然方程）

PS：牛客的markdown对公式渲染的很丑，原文请阅读【千字讲解极大似然估计】

3. 极大后验估计

MAP的逻辑是：最优的参数应该是让后验概率最大。即 $\begin{aligned} \hat{\theta}_{M A P} &=\arg \max _{\theta} p(\theta \mid D) \\ &=\arg \max _{\theta} \frac{p(D \mid \theta) p(\theta)}{p(D)} \\ &=\arg \max _{\theta} p(D \mid \theta) p(\theta) \\ &=\arg \max _{\theta} \log [p(D \mid \theta) p(\theta)] \\ &=\arg \min _{\theta}-\log p(D \mid \theta)-\log p(\theta) \end{aligned}$
MAP和MLE的区别是，两者优化的目标函数只是相差了一个先验。更有趣的是，如果这个先验服从高斯分布的话，MAP将等同于MLE+L2正则。

推导：假设参数G服从高斯分布，即: $p(\theta)=\frac{1}{\sqrt{2 \pi \sigma}} e^{-\frac{\theta^{2}}{2 \sigma^{2}}}$
则有： $\begin{aligned} \hat{\theta}_{\operatorname{MLP}} &=\underset{\theta}{\arg \min }-\log p(D \mid \theta)-\log p(\theta) \\ &=\underset{\theta}{\arg \min }-\log p(D \mid \theta)+\lambda \| \theta_{2}\|^{2} \\ &=\hat{\theta}_{M E}+\lambda\|\theta\|_{2}^{2} \end{aligned}$
其中， $\lambda$ 是跟 $\theta$ 无关的常数。

我们发现在极大后验估计的推导中，忽略了分母 $P(D)$ ，而贝叶斯估计则考虑了这个项。

最大后验概率估计，英文为Maximum A Posteriori Estimation, 简写为MAP。回到抛硬币的问题, 最大似然估计认为使似然函数 $P(X \mid \theta)$ 最大的参数 $\theta$ 即为最好的 $\theta$ , 此时最大似然估计是将 $\theta$ 看作固定的值，只是其值未知; 最大后验概率分布认为 $\theta$ 是一个随机变量，即 $\theta$ 具有某种概率分布，称为先验分布, 求解时除了要考虑似然函数 $P(X \mid \theta)$ 之外，还要考虑 $\theta$ 的先验分布 $P(\theta)$ , 因此其认为使 $P(X \mid \theta) P(\theta)$ 取最大值的 $\theta$ 就是最好的 $\theta_{0}$ 此时要最大化的函数变为 $P(X \mid \theta) P(\theta)$ , 由于 $X$ 的先验分布 $P(X)$ 是固定的 (可通过分析数据获得，其实我们也不关心 $X$ 的分布, 我们关心的是 $\theta$ ), 因此最大化函数可变为 $\frac{P(X \mid \theta) P(\theta)}{P(X)}$ , 根据贝叶斯法则，要最大化的函数 $\frac{P(X \mid \theta) P(\theta)}{P(X)}=P(\theta \mid X)$ , 因此要最大化的函数是 $P(\theta \mid X)$ , 而 $P(\theta \mid X)$ 是 $\theta$ 的后验概率。最大后验概率估计可以看作是正则化的最大似然估计，当然机器学习或深度学习中的正则项通常是加法，而在最大后验概率估计中采用的是乘法, $P(\theta)$ 是正则项。在最大似然估计中，由于认为 $\theta$ 是固定的，因此 $P(\theta)=1$ 。

最大后验概率估计的公式表示： $\underset{\theta}{\operatorname{argmax}} P(\theta \mid X)=\underset{\theta}{\operatorname{argmax}} \frac{P(X \mid \theta) P(\theta)}{P(X)} \propto \underset{\theta}{\operatorname{argmax}} P(X \mid \theta) P(\theta)$
在抛硬币的例子中, 通常认为 $\theta=0.5$ 的可能性最大, 因此我们用均值为 $0.5$ , 方差为 $0.1$ 的高斯分布来描述 $\theta$ 的先验分布，当然也可以使用其它的分布来描述 $\theta$ 的先验分布。 $\theta$ 的先验分布为: $\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(\theta-\mu)^{2}}{2 \sigma^{2}}}=\frac{1}{10 \sqrt{2 \pi}} e^{-50(\theta-0.5)^{2}}$
在最大似然估计中, 已知似然函数为 $P(X \mid \theta)=\theta^{6}(1-\theta)^{4}$ , 因此: $P(X \mid \theta) P(\theta)=\theta^{6} \times(1-\theta)^{4} \times \frac{1}{10 \sqrt{2 \pi}} \times e^{-50(\theta-0.5)^{2}}$
转换为对数函数： $\ln (P(X \mid \theta) P(\theta))=\ln \left(\theta^{6} \times(1-\theta)^{4} \times \frac{1}{10 \sqrt{2 \pi}} \times e^{-50(\theta-0.5)^{2}}\right)=6 \ln (\theta)+4 \ln (1-\theta)+\ln \left(\frac{1}{10 \sqrt{2 \pi}}\right)-50(\theta-0.5)^{2}$
令 $\ln (P(X \mid \theta) P(\theta)) \prime=0$ , 可得: $100 \theta^{3}-150 \theta^{2}+40 \theta+6=0$
由于 $0 \leq \theta \leq 1$ , 解得: $\hat{\theta} \approx 0.529$

如果我们用均值为 $0.6$ , 方差为 $0.1$ 的高斯分布来描述 $\theta$ 的先验分布, 则 $\hat{\theta}=0.6$ 。由此可见，在最大后验概率估计中， $\theta$ 的估计值与 $\theta$ 的先验分布有很大的关系。这也说明一个合理的先验概率假设是非常重要的。如果先验分布假设错误, 则会导致估计的参数值偏离实际的参数值。

如果用 $\alpha=3, \beta=3$ 的Beta分布来描述 $\theta$ 的先验分布，则 $P(X \mid \theta) P(\theta)=\theta^{6} \times(1-\theta)^{4} \times \frac{1}{B(\alpha, \beta)} \times \theta^{\alpha-1}(1-\theta)^{\beta-1}$
令 $P(X \mid \theta) P(\theta) \prime=0$ 求解可得: $\hat{\theta}=\frac{\alpha+5}{\alpha+\beta+8}=\frac{8}{3+3+8} \approx 0.57$
最大后验概率估计的求解步骤：

确定参数的先验分布以及似然函数
确定参数的后验分布函数
将后验分布函数转换为对数函数
求对数函数的最大值（求导，解方程）

PS：牛客的markdown对公式渲染的很丑，原文请阅读【千字讲解极大似然估计】

4. 贝叶斯估计

贝叶斯估计是最大后验估计的进一步扩展，贝叶斯估计同样假定 $\theta$ 是一个随机变量，但贝叶斯估计并不是直接估计出 $\theta$ 的某个特定值，而是估计 $\theta$ 的分布，这是贝叶斯估计与最大后验概率估计不同的地方。在贝叶斯估计中，先验分布 $P(X)$ 是不可忽略的。回到抛硬币的例子中，在已知 $X$ 的情况下，描述 $\theta$ 的分布即描述 $P(\theta \mid X), \quad P(\theta \mid X)$ 是一种后验分布。如果后验分布的范围较窄，则估计值的准确度相对较高，反之，如果后验分布的范围较广，则估计值的准确度就较低。

贝叶斯公式: $P(\theta \mid X)=\frac{P(X \mid \theta) P(\theta)}{P(X)}$
在连续型随机变量中，由于 $P(X)=\int_{\Theta} P(X \mid \theta) P(\theta) d \theta$ , 因此贝叶斯公式变为 $:$
$P(\theta \mid X)=\frac{P(X \mid \theta) P(\theta)}{\int_{\Theta} P(X \mid \theta) P(\theta) d \theta}$
从上面的公式中可以看出，贝叶斯估计的求解非常复杂，因此选择合适的先验分布就非常重要。一般来说，计算积分 $\int_{\theta} P(X \mid \theta) P(\theta) d \theta$ 是不可能的。对于这个抛硬币的例子来说, 如果使用共轭先验分布，就可以更好的解决这个问题。二项分布参数的共轩先验是Beta分布，由于 $\theta$ 的似然函数服从二项分布, 因此在贝叶斯估计中，假设 $\theta$ 的先验分布服从 $P(\theta) \sim \operatorname{Beta}(\alpha, \beta)$ , Beta分布的概率密度公式为: $f(x ; \alpha, \beta)=\frac{1}{B(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1}$
因此，贝叶斯公式可写作： $\begin{aligned} P(\theta \mid X) &=\frac{P(X \mid \theta) P(\theta)}{\int_{\Theta} P(X \mid \theta) P(\theta) d \theta} \\ &=\frac{\theta^{6}(1-\theta)^{4} \frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{B(\alpha, \beta)}}{\int_{\Theta} \theta^{6}(1-\theta)^{4} \frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{B(\alpha, \beta)} d \theta} \\ &=\frac{\theta^{\alpha+6-1}(1-\theta)^{\beta+4-1}}{\int_{\Theta} \theta^{\alpha+6-1}(1-\theta)^{\beta+4-1} d \theta} \\ &=\frac{\theta^{\alpha+6-1}(1-\theta)^{\beta+4-1}}{B(\alpha+6-1, \beta+4-1)} \\ &=\operatorname{Beta}(\theta \mid \alpha+6-1, \beta+4-1) \\ &=\operatorname{Beta}(\theta \mid \alpha+6, \beta+4) \end{aligned}$
从上面的公式可以看出, $P(\theta \mid X) \sim \operatorname{Beta}(\theta \mid \alpha+6, \beta+4)$ 。其中 $B$ 函数，也称 $B e t a$ 函数，是一个标准化常量, 用来使整个概率的积分为1。Beta $(\theta \mid \alpha+6, \beta+4)$ 就是贝叶斯估计的结果。根据Beta分布的数学期望公式 $E(\theta)=\frac{\alpha}{\alpha+\beta}$ 可得: $\hat{\theta}=\int_{\Theta} \theta P(\theta \mid X) d \theta=E(\theta)=\frac{\alpha}{\alpha+\beta}=\frac{9}{9+7}=0.5625$
注：二项分布参数的共轭先验是Beta分布, 多项式分布参数的共车先验是Dirichlet分布, 指数分布参数的共车先验是Gamma分布，高斯分布均值的共功先验是另一个高斯分布, 泊松分布的共车先验是Gamma分布。

贝叶斯估计要解决的不是如何估计参数, 而是用来估计新测量数据出现的概率, 对于新出现的数据 $\tilde{x}$ : $P(\tilde{x} \mid X)=\int_{\Theta} P(\tilde{x} \mid \theta) P(\theta \mid X) d \theta=\int_{\Theta} P(\tilde{x} \mid \theta) \frac{P(X \mid \theta) P(\theta)}{P(X)} d \theta$
贝叶斯估计的求解步骤：

确定参数的似然函数
确定参数的先验分布，应是后验分布的共轭先验
确定参数的后验分布函数
根据贝叶斯公式求解参数的后验分布

5. 总结

从最大似然估计、最大后验概率估计到贝叶斯估计，从下表可以看出 $\theta$ 的估计值 $\hat{\theta}$ 是逐渐接近 $0.5$ 的。从公式的变化可以看出，使用的信息是逐渐增多的。最大似然估计、最大后验概率估计中都是假设 $\theta$ 未知，但是确定的值，都将使函数取得最大值的 $\theta$ 作为估计值，区别在于最大化的函数不同，最大后验概率估计使用了 $\theta$ 的先验概率。而在贝叶斯估计中，假设参数 $\theta$ 是未
知的随机变量，不是确定值，求解的是参数 $\theta$ 在样本 $X$ 上的后验分布。 $\begin{array}{|l|l|l|l|} \hline \text { Type } & \text { MLE } & \text { MAP } & \text { BE } \\ \hline \hat{\theta} & 0.6 & 0.57 & 0.5625 \\ \hline f & P(X \mid \theta) & P(X \mid \theta) P(\theta) & \frac{P(X \mid \theta) P(\theta)}{P(X)} \\ \hline \end{array}$
三者之间的联系：

（1）MAP + 高斯先验 = MLE + L2正则

（2）当样本量越来越大，先验所起的作用也越来越小，最后MAP会趋近于MLE。

（3）当先验为均匀分布时，p(θ)为常量，此时MAP与MLE等价。可以理解为这种情况下先验并不能提供任何有价值的信息。

6. 极大似然估计与交叉熵

在分类任务中，我们以常见的二分类任务为例，标签服从伯努利分布（推广到多分类单标签问题, 标签服从多项式分布）。伯努利分布是一个离散型概率分布（分类问题为离散型概率问题）。假设我们的数据集由 $n$ 个样本构成 $D=\left\{X_{1}, X_{2}, \ldots, X_{n}\right\}$ , 其中, $\quad X_{n}=\left(x_{n}, y_{n}\right)$ 构成，极大似然的目标为 $: \max P\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ 。对于每个样本来说，由于是二分类问题, 假设预测为正样本的概率 $P(Y=1 \mid x)=p(x)$ ,负样本的概率为 $P(Y=0 \mid x)=1-p(x)$ , 因此，对于单个样本 $X_{i}$ , 概率质量函数为： $P\left(X_{i}\right)=\left[p\left(x_{i}\right)\right]^{y_{i}}\left[1-p\left(x_{i}\right)\right]^{1-y_{i}}$
由于样本之间独立同分布（机器学习的基本假设），因此，极大似然函数 $\max P\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ 的目标变为 $:$
$\max \prod_{i}^{N} P\left(X_{i}\right)$
将函数取对数，函数的极值点不会改变，因此： $\max \sum_{i}^{N} \log P\left(X_{i}\right)=\sum_{i}^{N} y_{i}\left[\log \left(p\left(x_{i}\right)\right)\right]+\left(1-y_{i}\right)\left[\log \left(1-p\left(x_{i}\right)\right)\right]$
这便是我们熟知的二元交叉熵损失函数。

7. 极大似然估计与MSE

在回归问题中, 我们以线性拟合任务 $y=w^{T} \phi(x)$ 为例，我们希望拟合得到的预测值 $y$ 和目标变量 $t$ 越相似越好。现在我们假设： $y$ 与 $t$ 之所以存在差别，是因为观察值 $t$ 本身存在的随机性, 不论这种随机性产生的原因是什么，我们假设这一随机性符合一个以 0 为均值，以 $\beta^{-1}$ 为方差的高斯分布。引入一个随机变量 $\varepsilon$ 来表示这一随机性, 则有: $t=y(x, w)+\varepsilon=w^{T} \phi(x)+\varepsilon，其中 \varepsilon \sim N\left(0, \beta^{-1}\right)$
给定一个输入变量 $x$ , 可以基于上述线性回归模型计算对应的目标观察值 $t$ 的生成概率: $p(t \mid x ; w, \beta)=N\left(t \mid y(x ; w), \beta^{-1}\right)$
因此, 对于给定的由 $n$ 个样本构成 $D=\left\{X_{1}, X_{2}, \ldots, X_{n}\right\}$ 的数据集, 其中 $X_{n}=\left(x_{n}, t_{n}\right)$ ，假设样本之间独立同分布 $($ 假设同2) $，$ 该模型生成这一数据集的最大似然估计为: $\max P(D ; w, \beta)=\max \prod_{i}^{N} N\left(t_{n} \mid w^{T} \phi\left(x_{n}\right), \beta^{-1}\right)$
同样地, 为方便计算，取对数似然函数作为目标函数, 即: $\begin{array}{l} L(w, \beta)=\max (\log P(D ; w, \beta) \\ =\sum_{i}^{N} \log N\left(t_{n} \mid w^{T} \phi\left(x_{n}\right), \beta^{-1}\right) \\ =\frac{N}{2} \log \beta-\frac{N}{2} \log (2 \pi)-\beta E(w) \end{array}$
其中前两项与 $w$ 无关，在第三项中: $E(w)=\frac{1}{2} \sum_{i=1}^{N}\left(t_{n}-w^{T} \phi\left(x_{n}\right)\right)^{2}$
因此, 对 $w$ 的最大似然估计等价于对 $E(w)$ 的最小化, $E(x)$ 变为我们通常意义上的均方误差MSE

8. 经验风险最小化

MLE是经验风险最小化的例子。当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。在这里举个逻辑回归（LR）的例子。

对于二分类的逻辑回归来说，我们试图把所有数据正确分类，要么0，要么1。通过累乘每个数据样例来模拟模型产生数据的过程，并且最大化 $\prod_{i} P(1) * \prod_{j} P(0)$ 。我们需要通过取对数来实现概率之积转为概率之和 $\sum_{i} \ln P(1)+\sum_{j} \ln P(0)$ 。