机器学习中的最大似然和均方误差

前言

本文主要探讨最大似然估计的一些性质。结合线性回归作为最大似然的例子说明最大似然准则和最小均方误差的一致性。


一、最大似然估计和交叉熵

最大似然估计是最常用的估计准则,考虑一组含有$m$个样本的数据集:$\{x_1,x_2,…,x_m\}$,独立地由未知的真实数据生成分布$p_{data}(x)$生成。根据对数据集的观测,我们可以得到经验分布$\hat p_{data}(x)$,用其作为$p_{data}(x)$的替代。

进一步,我们会假设一个包含参数$\theta$的模型,并认为其可以根据$p_{model}(x,\theta)$将任意输入$x$映射到实数来估计真实概率$p_{data}(x)$。
我们希望根据模型能得到最优的$\theta$,其最大似然估计值被定义为:

其进一步等效为:

上面两式提供了两种计算思路,第一种是根据每个采样点值代入计算,第二种是先根据采样点统计出一个经验分布$\hat p_{data}(x)$,再计算对数似然函数的期望。这两种方式是等价的。

有一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布$\hat p_{data}(x)$和模型分布之间的差异,用KL散度定义:

忽略数据生成的无关项,当最小化KL散度时,只需最小化交叉熵:

因此最大似然的本质就是:我们希望找到一个模型,其能够逼近经验分布,从而预测真实分布。
另外,均方误差是经验分布和高斯模型之间的交叉熵。推导见下。

二、线性回归作为最大似然

假设模型:

其中$e$服从均值为0,方差为$\sigma^2$的高斯分布。现在需要确定最优参数$w$。

1、采用线性回归最小均方误差(MSE)的方式

假设真实数据:

回归预测数据:

根据MSE准则:

得到估计量$w$。

2、采用最大似然准则

根据模型的概率密度函数:

因此最大似然估计量为:

与MLE准则推导出的结果是一致的。


参考文献:《deep learning》

您的支持是我创造源源不断地动力