数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 1601|回复: 0

一文读懂:条件概率、全概率和贝叶斯定理

[复制链接]
发表于 2024-9-12 09:41 | 显示全部楼层 |阅读模式
一文读懂:条件概率、全概率和贝叶斯定理

原创 一只刘狮狮 一只刘狮狮 2024 年 08 月 05 日 20:55 广东

本文试图以通俗、易理解的方式,带你快速分清概率学习中的“三刺客”:条件概率、全概率和贝叶斯定理。


(图片来自电影《决胜 21 点》)

01 引入

在学习概率论时,我觉得它美妙的地方在于:生活中很多出现的事物是随机、不可控的,但概率却可以让我们在不确定中,获得一定的确定性,当然,有时候这个概率不一定正确,甚至存在很大的偏差,但它仍可以帮我们将模糊的问题变清晰。

我发现在初学时,条件概率、全概率和贝叶斯定理容易混淆,因此有网友将其戏称为概率论“三刺客”。因为最近在看相关的书和视频,于是想尝试写一篇文章,深入浅出地厘清三者关系。

先说我的结论:条件概率是正向思考,即考虑 A 事件发生后 B 事件发生的概率,而贝叶斯定理是条件概率的逆向思考,即从事件 B 出发,计算事件 A 的概率。全概率比较简单,就是指某一事件在多种可能原因下发生的总概率。

下面,我想用掷骰子的问题,将“三刺客”串起来,以图文的形式,尽可能将三者的原理和关系讲清楚。除了知识的讲解,我还会在最后向你展示贝叶斯模型是如何在人工智能时代影响日常生活的。

02 概率论“三刺客”

● 条件概率

条件概率(Conditional Probability)是概率论中的一个重要概念,它描述了某一个特定事件已发生的条件下,另一事件发生的概率。

具体来说,假设有两个事件 A 和 B ,事件A发生的概率为 P(A) ,事件 B 发生的概率为 P(B) ,那么在事件B已经发生的条件下,事件 A 发生的概率被称为条件概率,记作 P(A|B)。其表达式如下:

(2.1)

小贴士:P(A∩B) 表示事件 A 和事件 B 同时发生的概率。

这个公式还可以进行一定的变形,通过 P(A|B) 和 P(B) 发生的概率,得到事件 A 和事件 B 同时发生的概率,即 P(A∩B) 。其表达式如下:

(2.2)

为帮助理解条件概率,我们来看一个扔骰子的简单例子~



小贴士:样本空间

样本空间是概率论中的一个基本概念,它指的是一个随机试验中所有可能结果的集合。这些结果构成了对随机试验结果的全面描述,是概率论分析的基础。

随机试验 E 的所有基本结果组成的集合称为 E 的样本空间,记为 S 。样本空间的元素称为样本点或基本事件。

如果我们定义事件 A 为:至少有一个骰子是 2 。现在我们来计算事件 A 的概率 P(A) :



现在我们定义事件 B :两个骰子之和为 7 。事件 B 一共有 6 种情况,我们计算事件 B 的概率  P(B) :



接下来我们来计算 P(A∩B) ,即 A 和 B 同时发生的概率:



接下来我们就可以讨论条件概率了。我们用 P(A|B) 表示在 B 发生的条件下,A 发生的概率。由于 B 已经发生,所以,样本空间就是 B 的样本数量 6 ,而要发生 A ,则只能是 A、B 同时发生,即 A∩B ,因此有 2 种情况:



由此,我们就可以得到 A 和 B 同时发生的概率,即至少有一个骰子点数为 2 的概率(1/18)。

好啦,现在,我们来简要总结一下什么是条件概率

简单来说,条件概率是在某一特定事件已经发生的条件下,另一个事件发生的概率。在事件 B 已经发生的条件下,事件 A 发生的概率就被称为条件概率,记作 P(A|B) 。通过上面掷骰子的例子,相信你已对条件概率建立起了直观的感觉。

● 全概率

全概率(Total Probability)简单来说,就是指某一事件在多种可能原因下发生的总概率。如果有一个事件 A ,它可以由一系列互不相容(即不能同时发生)且其并集为样本空间  S  的事件 B1, B2, …, Bn 导致,那么事件 A  的全概率就是这些基本事件各自导致 A 发生的条件概率与它们各自发生概率的乘积之和。

全概率公式可以表示为:

(2.3)

当然,公式(2.3)也可以简写为:

(2.4)



我们还是用掷骰子的例子来说明什么是全概率

假设现在有 3 个骰子,分别装在 2 个骰子盒里(盒子 B1 装有 1 枚骰子,盒子 B2 装有 2 枚)。随机摇动盒子,现在我们想知道事件 A :打开其中一个盒子得到总点数为 6 的概率。



对于盒子 B1(装有 1 枚骰子):只有 1 种情况,即当这枚骰子的点数为 6 时,事件 A 才发生。因此,在盒子 B1 中打开得到总点数为 6 的概率为:



对于盒子 B2(装有 2 枚骰子):我们可以使用组合数来计算总点数为 6 的所有可能情况。两枚骰子点数和为 6 的组合有:(1,5), (2,4), (3,3), (4,2), (5,1),共 5 种。因此,在盒子 B2 中打开得到总点数为 6 的概率为:



最后,我们使用全概率公式来计算事件 A 的总概率:

P(A) = P(AB1) + P(AB2)



所以,打开其中一个盒子得到总点数为 6 的概率为 11/72 。

● 贝叶斯定理

在开始之前,我先卖个关子,不直接给出贝叶斯的定义和公式,而是从条件概率推导中得到。

让我们接着条件概率中掷骰子的例子往下讲。

前面我们提到,用 P(A∩B) 表示 A、B 同时发生的情况,会有 2 种情况:

情况一:



情况二:



因此,根据上述两个等式,我们可以推导出下面的等式:

(2.5)

去掉左边的 P(A∩B) ,我们得到等式:

(2.6)

这就是著名的贝叶斯定理,它表示出现 B 时,如何计算 A 的概率。

很多时候,我们把 A 改写为 H ,把 B 改写为 E 。H 表示 Hypothesis(假设),E 表示 Evidence(证据),贝叶斯定理的意义就在于,给定一个先验概率 P(H) ,在出现了证据 E 的情况下,计算后验概率 P(H|E) 。

(2.7)

现在,让我们对概率论“三刺客”的关系进行简要小结吧,相信你在看完下面这张图后会有豁然开朗的感觉。



03 贝叶斯定理与生活

贝叶斯定理看似抽象,实则不然。在人工智能的时代,我们或多或少都与贝叶斯定理打过交道,比如我们在中英翻译时就会用到贝叶斯模型

假定我们要将一个英语句子 Y 翻译为中文句子 X ,从数学的视角看,只要在所有中文句子 X1,X2,X3,…,Xn 中寻找一个含义最有可能和Y相同的句子即可,我们假设这个句子是 Xi(i=1,2,…)。这也就是说,在给定英语句子 Y 的条件下,使得 P(X|Y) 达到最大的那个句子 Xi 就是我们要找的中文翻译。

假定 P(X1|Y),P(X2|Y),P(X3|Y),…,P(X1|Y) 分别等于 0.1,0.3,0.2,…,0.05,…,对比一下我们发现,第二种翻译方法 X2 的的条件概率是 0.3 ,是最大的,因此就认为 Y 应该被翻译成 X2 或者说 Xi=X2 。

当然,有人会发现,中文的句子有很多,是很难列举完的。对于这个问题,在自然处理中会有缩小搜寻范围的办法去解决,但这不是本篇的重点,这里就不做展开。

在翻译的过程中,还会遇到另一个问题就是,给定两个句子,一个中文句子 X 和一个英文句子 Y ,如何计算条件概率 P(X|Y) ?

直接计算条件概率 P(X|Y) 并不容易,根据(2.1)条件概率的公式,如果我们在文本中遇到英语句子Y很多次,就记作 P(Y) ,而且需要知道它被翻译成 X 有 P(X∩Y) 次,我们才可以用这两个数值来近似概率 P(X|Y) 。遗憾的是,除非是一些翻译好的名句,我们很难见到多次 Y 被译为 X 的情况,因此用这样的方式直接统计得到条件概率难度会很大,因此我们只能考虑曲线救国了。

有了贝叶斯定理,我们就可以间接地估算上述条件概率了。我们将 P(X|Y) 按照贝叶斯的公式展开得到:

(2.6)

这个式子中有三个因子:第一个因子 P(Y|X) 是给定中文句子 X ,对应英文句子 Y 的概率;第二个因子 P(X) 是一个中文句子 X 出现的概率;第三个因子,也就是分母 P(Y) ,则是英文句子本身的概率。

看到一个概率被拆解为 3 个,大家或许会疑惑这不是将简单的问题复杂化了吗?其实不然,因为这样拆解的原因是上述的每个因子都能计算了。

第一个因子 P(Y|X) 可通过隐马尔可夫模型近似地计算出来,这个模型大家简单理解为每一个中文词组有哪些英语翻译即可;第二个因子可以通过一个标准的马尔可夫模型计算出来,它在这也被称为语言模型,大家把它理解成计算的是哪个汉语句子读起来更通顺就可以了。第三个因子 P(Y) 则是一个常数,因为一旦给出一个要翻译的句子 Y ,它就是一个确定的事,我们近似它的概率为 1(真实情况不是 1 ,如果想探究这个概率的朋友可阅读吴军老师的《数学之美》,他在此书中对机器翻译的数学模型做了详细介绍)。

通过贝叶斯公式,原来无法直接计算的条件概率变得可计算了,虽然计算量巨大,但对于计算机来说,这正是它的专长。这便是机器翻译的原理。

相信不少朋友在使用机翻时会发现 bug ,即对于不那么日常的句子翻译,机器翻译往往效果不佳,其中的原因在于,较难的语句不太常见,语料库中的资料相对较少,在此基础上建立的模型也不太准确。

虽然贝叶斯模型有一定局限性,但它仍便捷了我们的生活。贝叶斯模型在机器翻译中的应用,极大地降低了语言障碍对全球化进程的阻碍。此外,它在机器翻译中的成功应用,也促进了自然语言处理、深度学习等技术的发展。

下一期,我将分享一些与生活强相关、有趣且反直觉的概率现象。我们 8 月底见~

参考资料:

1. 吴军. 吴军数学通识讲义:原来数学可以这样用[M].第一版. 新星出版社, 2021-4.

2. 廖雪峰的官方网站(2023-08-27):一文搞懂贝叶斯定理(原理篇)https://liaoxuefeng.com/blogs/all/2023-08-27-bayes-explain/

3. Youtube:Chung-Kang Peng 彭仲康(2020).Bayes' Theorem 贝叶斯定理https://www.youtube.com/watch?v=Pu675cHJ7bg

一只刘狮狮

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-5-2 12:42 , Processed in 0.076934 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表