如何通俗地理解概率论中的「极大似然估计法」? - 马同学的回答
title: 如何通俗地理解概率论中的「极大似然估计法」? - 马同学的回答
url: https://www.zhihu.com/question/24124998/answer/242682386
author: 马同学 (matongxue)
voteup: 1845 赞同
thanks: 428 感谢
create_date: 2017-10-11 11:52:23
edit_date: 2017-11-05 16:45:51
fetch_date: 2020-02-26 14:18:55
count: 约 6892 字
version: 1
数学, 统计学, 概率, 概率论, 概率论与数理统计
(无)
我们假设硬币有两面,一面是“花”,一面是“字”。一般来说,我们都觉得硬币是公平的,也就是“花”和“字”出现的概率是差不多的。如果我扔了100次硬币,100次出现的都是“花”。在这样的事实下,我觉得 似乎 硬币的参数不是公平的。你硬要说是公平的,那就是侮辱我的智商。
这种通过事实,反过来猜测硬币的情况,就是 似然 。而且,我觉得最有可能的硬币的情况是,两面都是“花”。通过事实,推断出最有可能的硬币情况,就是 最大似然估计 。
让我们先来比较下概率和似然。
为了避免和我们想讨论的概率混淆,我们把硬币的“花”出现的概率称为硬币的参数。
1.1 概率
已知硬币的参数,就可以去推测抛硬币的各种情况的可能性,这称为 概率 。
比如已知硬币是公平的,也就是硬币的参数为0.5。那么我们就可以推测,扔10次硬币,出现5次“花”朝上的 概率 为(抛硬币遵循二项分布,这个就不多解释了):
1.2 似然
正如开头所说,我们对硬币的参数并不清楚,要通过抛硬币的情况去推测硬币的参数,这称为 似然 。
可以再举不那么恰当(主要模型不好建立)的例子,蹭下热点。比如我们发现,鹿晗和关晓彤戴同款手链,穿同款卫衣:
我们应该可以推测这两人关系的“参数”是“亲密”。
进一步发现,两人在同一个地方跨年:
似乎,关系的“参数”是“不简单”。
最后,关晓彤号称要把初吻留给男友,但是最近在荧幕中献出初吻,对象就是鹿晗:
我觉得最大的可能性,关系的“参数”是“在一起”。
通过证据,对两人的关系的“参数”进行推断,叫做 似然,得到最可能的参数,叫做最大似然估计 。
来看看怎么进行最大似然估计。
2.1 具体的例子
我们实验的结果是,10次抛硬币,有6次是“花”。
所谓最大似然估计,就是假设硬币的参数,然后计算实验结果的概率是多少,概率越大的,那么这个假设的参数就越可能是真的。
我们先看看硬币是否是公平的,就用0.5作为硬币的参数,实验结果的概率为:
单独的一次计算没有什么意义,让我们继续往后面看。
再试试用0.6作为硬币的参数,实验结果的概率为:
之前说了,单次计算没有什么意义,但是两次计算进行比较就有意义了。
可以看到:
我们可以认为,0.6作为参数的可能性是0.5作为参数的可能性的1.2倍。
2.2 作图
我们设硬币的参数为
这样我们就可以作图了:
我们可以从图中看出两点:
所以更准确的说,似然(现在可以说似然函数了)是推测参数的分布。
而求最大似然估计的问题,就变成了求似然函数的极值。在这里,极值出现在0.6。
2.3 更多的实验结果
如果实验结果是,投掷100次,出现了60次“花”呢?似然函数为:
用0.5作为硬币的参数,实验结果的概率为:
再试试用0.6作为硬币的参数,实验结果的概率为:
此时:
此时,0.6作为参数的可能性是0.5作为参数的可能性的8倍,新的实验结果更加支持0.6这个参数。
图像为:
很明显图像缩窄了,可以这么解读,可选的参数的分布更集中了。越多的实验结果,让参数越来越明确。
2.4 更复杂一些的最大似然估计
2.4.1 数学名词
下面提升一点难度,开始采用更多的数学名词了。先说一下数学名词:
2.4.2 多次实验
之前的例子只做了一次实验。只做一次实验,没有必要算这么复杂,比如投掷100次,出现了60次“花”,我直接:
不就好了?
最大似然估计真正的用途是针对多次实验。
2.4.3 上帝视角
为了说清楚这个问题,我引入一个上帝视角。
比如,我有如下的二项分布
在实际生活中
要提醒大家注意的一点,上面的图像只有上帝才能看到的,包括:
我把只有上帝能看到的用虚线表示
2.4.4 通过多次实验进行最大似然估计
上面的二项分布用通俗点的话来说,就是描述了抛10次硬币的结果的概率,其中,“花”出现的概率为
针对上面的二项分布,我进行6次实验(也就是总共6次,每次抛10次硬币),把实验结果用点的形式标记在图像上(从技术上讲,这6个点是根据二项分布随机得到的):
这个实验结果,也就是图上的点,是我们“愚蠢的人类”可以看见的了。
可以看到,虽然进行了6次实验,但是却没有6个点,这是因为有的实验结果是一样的,就重合了。
为了方便观察,我把6个点的值用文字表示出来:
上图中的
我们用
下面这幅图,分为两部分,上面除了实验结果外,都是上帝看到的,而下面是通过实验结果,利用似然函数对
可以看出,推断出来的
自己动手试试当上帝的感觉吧,下面的
此处有互动内容,点击此处前往操作。
最大似然估计也是机器学习的一个重要算法,大家是否通过上面的操作,是否感受到了机器是如何学习的?
3.1 相同之处
扔了100次硬币,100次出现的都是“花”,不论是最大似然估计,或者是贝叶斯定理,都认为有必要对之前假设的硬币的参数进行调整。我在 怎样用非数学语言讲解贝叶斯定理(Bayes' theorem)? 的最后也提出了这个问题。
3.2 不同之处
贝叶斯定理还要考虑,两面都是“花”的硬币本身存在的概率有多高。如果我的硬币不是精心准备的,而是随机挑选的,那么一枚硬币两面都是“花”可能性微乎其微,几乎就是一个传说。那么贝叶斯会认为哪怕扔了100次硬币,100次出现的都是“花”,但是因为两面都是“花”的硬币实在太少,那么实际这枚硬币是两面“花”的可能性仍然不高。
林路:
遗憾没早看到这样通俗易懂的讲解 (29 赞)
1nv0k3r:
一大波鹿晗粉丝还有30s到达战场2333333 (29 赞)
伊芸:
感觉还是定义式最清晰。 (6 赞)
虐婊高手 回复 伊芸:
定义一定是最清晰的,但不一定是容易理解的 (8 赞)
马沙马:
答主有没有考虑过用人择原理去比喻极大似然?我们存在所以宇宙的参数就是这样,生命的出现是超低概率的结果,但是它出现了,如果宇宙的参数不是这样,生命就可能不存在了。现实中,10000万次随机实验的结果本身就是概率很低事件,如果参数不是这样,那我们观察不到这一万次实验的联合结果了。 (5 赞)
马同学 回复 马沙马:
我们是存在在这样的宇宙中,只是目前的证据告诉我们,这样的宇宙存在的概率很低,所以有人提出了人择原理。我是这么考虑的 (3 赞)