数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 56|回复: 0

安德烈·马尔可夫:用百年前的随机模型改变 AI 时代

[复制链接]
发表于 2025-6-11 01:00 | 显示全部楼层 |阅读模式
安德烈·马尔可夫:用百年前的随机模型改变 AI 时代

原创  关注全球科研的  科学方程式  2025 年 06 月 09 日 15:43  北京

当你和 AI 对话的时候,是否想过它怎么知道下一句该接什么?

其实,这些人工智能模型运作的核心逻辑之一,是预测接下来最可能出现什么。它们并不像人类那样拥有深层的“理解”或进行长远规划,而是依赖强大的统计模式和识别能力。这种“基于当下预测未来”的思想源头,可以追溯到一个经典的数学概念:马尔可夫链(Markov Chain)

一个世纪前,俄国数学家安德烈·马尔可夫(Andrey Markov)提出了这一理论,其精髓在于:下一个状态只取决于“现在”,而与更远的过去无关。 这一简洁而强大的思想,深刻影响了早期语言模型、搜索排序、机器人路径规划乃至强化学习算法的设计思路。


安德烈·安德烈耶维奇·马尔可夫(1856-1922),俄国数学家,以马尔可夫链闻名,对概率论、数学分析和数论做出了重大贡献。

虽然当前驱动 ChatGPT 、DeepSeek 等高级对话的核心引擎是深度神经网络,已远非简单的马尔可夫链可比,但在一些基础任务以及基于概率序列的决策方面,依然能看到马尔可夫思想的影子。可以说,他是现代 AI 发展初期“从混乱中建模”的起点之一。

从他开始,概率不再只是运气的游戏,而成为理解世界的一把钥匙。

NO.1  从“叛逆少年”,到圣彼得堡学派领袖

1856 年 6 月 14 日,马尔可夫出生于俄罗斯帝国的梁赞。他的父亲曾在林业部门担任低等文官,生活拮据,微薄的薪水需要供养两段婚姻带来的多个子女。

5 岁时,全家迁往圣彼得堡谋生。在这座象征着帝国荣耀的城市,小马尔可夫却深受宗教思想与形式主义教学的压制。中学时期,除了数学以外,他的其他科目成绩都不及格。性格刚烈的他,常常与“守旧”的老师爆发争执,甚至严重到差点被退学的地步。直到 1874 年考入圣彼得堡大学数学系,马尔可夫才彻底摆脱了“叛逆少年”的误解。

此时,圣彼得堡大学的领军人物正是被称为“俄国数学之父”帕夫努蒂·切比雪夫(Pafnuty Chebyshev)。他展露的理性、严谨与实用主义风格,日后都在马尔可夫身上留下了显著印记。


帕夫努蒂·切比雪夫(1821-1894),俄罗斯数学的奠基人,同时引领圣彼得堡学派开启了黄金时代。

1880 年,马尔可夫在亚历山大·科尔金(Aleksandr Korkin)和叶戈尔·佐洛塔列夫(Yegor Zolotarev)的指导下,完成了硕士论文《论具有正行列式的二元二次型》。这篇论文非常出色,甚至获得了切比雪夫的高度评价。同年,马尔可夫开始在圣彼得堡大学担任讲师教授微积分学,同时攻读博士学位,由切比雪夫亲自指导。

  
亚历山大·科尔金(1837-1908)和叶戈尔·佐洛塔列夫(1847-1878)两位教授很早就关注到马尔可夫的数学天赋,并邀请他参加了高年级的数论讨论班。

身处讲台上的马尔可夫,却不像他的老师那样广受学生爱戴。他的授课风格以严谨、挑剔而闻名,其课程不仅吸纳了许多最新的研究成果,还经常省略教材中的传统问题,导致难度巨大。然而,对于那些聪慧的学生而言,马尔可夫不墨守成规,善用启发式教学,塑造了他们独立推导的能力。

随着马尔可夫一路升任圣彼得堡大学教授、圣彼得堡科学院院士,他逐渐接过了切比雪夫的衣钵,成为圣彼得堡学派新一代的领袖。


即使成为了大学者,马尔可夫也依旧保持着对威权和制度的“叛逆”。他一直批评沙皇俄国的学术机构,反对圣彼得堡科学院授予王室成员荣誉院士的惯例,并拒绝接受国家颁发的奖项,以抗议当局将作者高尔基驱逐出境。

马尔可夫的早期研究集中于圣彼得堡学派的核心阵地——数论和分析。但在切比雪夫的影响下,他又自然而然地加入了学派的另一项雄心勃勃的事业——概率论的本土化与改革

切比雪夫是俄国概率论研究的奠基人。他敏锐地意识到概率论在描述自然现象和社会统计中的巨大潜力,并致力于将其从西欧的博弈游戏中解放出来,赋予其严格的数学基础和更广泛的应用前景。虽然他曾试图扩展概率论中的大数定律和中心极限定理,但是未能完全成功。

当马尔可夫开始关注概率问题时,他的想法更为基础:当多个事件不再独立,而是彼此有所关联时,数学能否捕捉其规律?

NO.2  从相依事件洞察,到马尔可夫链诞生

直到 19 世纪末,概率论的主流问题仍然集中在“独立事件”上。抛硬币、掷骰子、彩票抽签……这些模型的关键在于,每一次试验的结果不受前一次影响。

然而,马尔可夫注意到,现实中许多现象——无论是物理过程、生物演化,还是语言文本、经济数据——其变量之间往往存在着复杂的依赖关系。一个字母的出现,往往和前一个字母有关;一个人的行为,可能受到前一刻行为的影响……经典的概率论框架在描述这些具有“记忆”或“关联”的随机过程时,显得力不从心。

出于对现有理论局限性的不满足,马尔可夫于 1906 年发表了第一篇关于该主题的论文《大数定律关于相依变量的扩展》,系统性地提出了一个新的随机过程:马尔可夫链。其核心思想是,接下来发生的事情仅取决于当前状态,而不依赖于更前面的状态。



为了更加直观的理解马尔可夫链,我们可以通过一个天气模型(如上图)来说明。

先假设某个地方只有三种可能的天气状态:晴天(Sunny)、下雨(Rainy)和多云(Cloudy),并且全天都会保持不变。

根据马尔可夫性质,明天的天气仅取决于今天,与昨天、前天或者更早的任何一天都无关。也就是说,如果今天下雨,明天还是下雨的概率是 0.5 ,明天多云的概率是 0.3 ,明天是晴天的概率是 0.2 。在马尔可夫模型的背景下,这些条件概率被称为转移概率(transition probability)



在马尔可夫链中,我们不只是关心“明天”的天气,还想知道:“从今天开始,两天后是晴天的概率是多少?”这就需要使用转移(概率)矩阵(Stochastic matrix),计算多步转移概率,也就是未来状态的递归计算。

设当前的转移矩阵为 P



● P^2:表示从“今天”到“两天后”的转移概率;

● P^n:表示从“今天”到“第 n 天后”的转移概率;



如果今天是多云,想知道两天后是晴天的概率,那就查看 P^2 的第 2 行第 3 列的数值,也就是 52% 的概率是晴天。

如果我们想无限期地观察天气,天气状态还会继续波动吗?还是说,每种天气出现的长期概率会趋于稳定?

设有一个向量 π = [πR,πC,πS] ,表示在长期运行后系统处于下雨(Rainy)、多云(Cloudy)、晴天(Sunny)三种状态的概率。若满足:π ⋅ P = π , 且 πR + πC + πS = 1 ,那么这个向量 π 就是该马尔可夫链的稳态概率分布(Stationary Distribution)

换句话说:不管最开始是晴天还是下雨,随着时间推移,天气出现的频率将趋于一个稳定比例。



这意味着,从长期来看,有 20% 的时间天气是下雨,有 20% 是多云,而 60% 是晴天。

马尔可夫链的特殊之处在于,当你沿着链条移动时,你所处的状态在任何给定的时间都是重要的。状态之间的转移是有条件的,也就是依赖于转移发生前所处的状态。

综合所有这些特点,马尔可夫能够证明,只要你能够到达链条中的所有状态,长期来看,移动到特定状态的概率将收敛到一个固定的值。这也正是马尔可夫链的另一核心思想:从短期的波动中,看见长期的秩序。

如何区分马尔可夫链相关术语?

在谈论马尔可夫链或者马尔可夫模型时,常会遇到几个看似相似但意义不同的术语。这些概念的共同核心是马尔可夫性,而马尔可夫链是马尔可夫过程中最基础、最经典的形式。



马尔可夫链相关术语及其关系

值得注意的是,马尔可夫当时并未将他的理论拓展到非常广泛的场景中。他的原始工作集中于有限状态、离散时间的过程,而且仍在传统分析方法的框架内推进。他对自己理论的推广保持审慎态度,也不曾预料其后来在多个学科的广泛传播。甚至在他的生前都没有使用“马尔可夫链”这一术语,这一命名来自后来数学家对他早期工作的尊重。

但在接下来的一个世纪里,马尔可夫链这一思想深刻地渗透进数学、工程乃至现代社会的方方面面。

NO.3  从理论上的链条,到现实世界的建模引擎

1922 年 7 月 20 日,马尔可夫在圣彼得堡逝世,享年 66 岁。他的儿子继承了他的名字和事业,也成了一名出色的数学家。

就在马尔可夫去世后不久,概率论经历了一次从经验总结走向数学公理化的飞跃。1933 年,苏联数学家安德烈·柯尔莫哥洛夫(Andrey Kolmogorov)提出了现代概率论的公理体系。在这套构架中,马尔可夫过程成为描述随机演化现象的核心模型之一。


安德烈·柯尔莫哥洛夫(1903-1987),前苏联的全能数学家,不仅在现代概率论的创建中发挥了核心作用,还将复杂的数学工具应用到物理、经济、计算机科学等多个实用领域。

与此同时,在另一条通道中,“信息论之父”克劳德·香农(Claude Shannon)也将马尔可夫链用于语言与信息的分析。他观察到,自然语言中的字符、词语并非独立、随机地出现,而是有强烈的上下文依赖——某个字母之后更可能接哪些字母,正符合马尔可夫性质。香农在 1948 年发表的开创性论文《通信的数学理论》中,使用了马尔可夫模型来构造“随机英语文本”。可以说,马尔可夫链在信息论的诞生中也扮演了思想启发的角色。


克劳德·香农(1916-2001),美国数学家、电气工程师、计算机科学家,为信息时代奠定了基础。

20 世纪中期,一组美国物理学家为解决复杂的高维积分计算,结合马尔可夫链提出了一个意义深远的算法——马尔可夫链蒙特卡洛方法(MCMC)。这个方法的精髓在于:通过构造一个具有目标分布的马尔可夫链,用计算机模拟大量“随机游走”的样本,从而间接获取复杂概率分布的信息。这一思路后来被广泛推广,成为贝叶斯统计、计算物理学、计算生物学、计算语言学等领域不可或缺的工具。

进入 21 世纪,马尔可夫链的应用已经不止于学术探索,而是渗入了日常生活以及各类技术系统。例如在天气预测领域,天气状态(晴、雨、阴)之间的变化模式,天然适合用马尔可夫链建模。即便不能精确预测远期天气,也可以计算出各种状态的概率趋势,提供有参考价值的预报。

在金融领域,例如股票价格的涨跌、市场状态的转移(牛市、熊市、中性),在很多分析中也会利用马尔可夫过程帮助投资者量化风险。

而在自然语言处理方面,早期的文本生成与语音识别系统,如 N-gram 语言模型,本质上就是高阶的马尔可夫模型。而现在流行的 ChatGPT 、DeepSeek 大语言模型,虽然已经使用深度神经网络替代,但其中“基于当前状态预测下一步”的思想根源仍是马尔可夫式的。

NO.4  马尔可夫用一条链,连接了世纪的技术变革

在数学史的长河中,马尔可夫或许不像欧拉、费马那样广为人知,但他留下的马尔可夫链,却穿越了一个多世纪的技术变革,成为无数科学问题背后的建模基石。

他的实证研究是分析俄语诗歌与文本中的字符统计规律,却启发出一整套关于不确定系统演化的理论。无论是在物理学、化学、经济学、生物学、计算机科学还是工业领域,马尔可夫性质中的“下一步只看当前”思想,始终是我们理解动态随机世界的一种工具。

今天,我们继续在用这套思想设计搜索算法、分析 DNA 序列、构建推荐系统,尽管现代技术早已超越了马尔可夫链的原始形式,但那种“以有限认知建模未知未来”的方法论,依旧是很多算法背后的逻辑基石。

安德烈·马尔可夫,他让我们看到,在随机的世界里,依然可以建立起概率秩序。



科学方程式

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-6-15 23:47 , Processed in 0.122464 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表