数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 709|回复: 0

小乐数学科普:有大局观的女人——数学家瑞秋·沃德(Rachel Ward)

[复制链接]
发表于 2023-11-26 10:58 | 显示全部楼层 |阅读模式
小乐数学科普:有大局观的女人——数学家瑞秋·沃德(Rachel Ward)

译者按:Rachel Ward(瑞秋·沃德)是德克萨斯大学奥斯汀分校教授,她以机器学习、优化和信号处理方面的工作而闻名,她也是 2020 年西蒙斯基金会研究员,2022 年 ICM 国际数学家大会中她受邀演讲的主题为《随机梯度下降 SGD :最优化与机器学习的结合》(有关 SGD 的简短介绍详见文末)。



瑞秋·沃德通过从不同领域提炼想法并将其应用于广泛的问题,在大量应用数学中建立了意想不到的联系。

作者:Yen Duong 博士 2023-11-2

译者:zzllrr小乐(数学科普公众号)2023-11-25

每年,美国人接受大约 3000 万次核磁共振成像(MRI)。尽管 MRI 无痛无创,但过程中的等待并不令人愉快。虽然是医学诊断的黄金标准,但 MRI 会引起强烈的幽闭恐惧症,患者通常渴望尽量减少手术时间。

事实上,研究人员长期以来一直在探索使 MRI 等成像处理工具更有效的方法。MRI 需要很长时间,因为技术人员必须从一定数量的角度拍摄一定数量的图像才能做出明智的决定。图片太少,他们可能会错过肿瘤。但是太多了,患者可能会被困在 MRI 内数小时。

2013 年,数学家瑞秋·沃德和她的同事迪安娜·尼德尔(Deanna Needell)发现了一种应用数学解决方案 https://epubs.siam.org/doi/abs/10.1137/120868281 ,作为选择在短时间内提供最多信息的角度 https://ieeexplore.ieee.org/document/6651836 的基础。她们的研究结果最终为她们赢得了享有盛誉的数学研究所及其应用奖,该奖项“旨在表彰对数学科学及其应用产生变革性影响的个人”。

正如尼德尔回忆的那样,“这是一个非常棘手的问题;很多人试图在那里证明结果,但没有成功。”沃德回忆说,关键的突破是在她“痴迷地寻找正确的结果”之后,她从近似理论的相关领域“坚持了好几个月”,并将其应用于 MRI 中的图像处理问题。从不寻常的角度应用新颖的见解是沃德的标志性数学举动,她在许多子领域一次又一次地采用这种方式。

“瑞秋非常令人惊奇的是,她对非常不同的问题做出了非常实质性的贡献,”她以前的学生索莱达·维拉尔(Soledad Villar),现在是约翰霍普金斯大学的教授说。“她没有一件具体的极擅长的事情;她做了很多事情,为不同的领域带来了新的想法。”


图源:oden.utexas.edu

从各个领域引入意想不到的结果并看到大的图景——识大局,在让沃德走到今天的位置方面发挥了重要作用。2022 年,她受邀在每四年举办一次的全球最大数学会议——国际数学家大会上发表演讲(参阅  小乐数学科普:2022 国际数学家大会 ICM 受邀演讲人国家学科院所分布和主题回顾 )。她 2020 年成为西蒙斯基金会研究员,2019 年在高等研究所获得冯·诺依曼奖学金,并于 2012 获得斯隆奖学金。她现在是德克萨斯大学奥斯汀分校计算工程与科学—数据科学的W.A."Tex" Moncrief杰出教授(https://en.wikipedia.org/wiki/William_Moncrief )和数学教授。

“我喜欢识别新出现的问题,并在不同的思维方式之间进行转换,”沃德说。“来自各种工程或计算科学的科学家让我注意到了令人信服的问题,比如为什么这个算法运行得这么好,或者为什么目前的理论和我们在实践中看到的之间存在差异?我喜欢从工程问题中提炼出简单但有意义的数学问题的过程。”

学习数学的艺术

尽管沃德是德克萨斯农工大学的一个数学教授和计算机程序员的女儿,但她并不认为自己最终会学习数学。事实上,她苦笑地回忆说,一位老教师在她宣布在德克萨斯大学奥斯汀分校攻读数学专业后,返还给她在幼儿园写的一张纸条,上面写着“我讨厌数学”。在对专业所需的细致实验室工作感到沮丧后,她已经离开了她原来的研究领域——生物化学。

“更抽象的数学课,比如实分析和线性代数,对我来说真的更有意义——我想:数学没有那么大的压力;很有趣,”沃德说。她通过两次暑期研究经历来追随这种“乐趣”。“直到这些研究经历,我才意识到数学真的是一门艺术。提出问题并将不同主题与应用联系起来是一门艺术。”

毕业后,沃德选择了计算数学作为研究生学业,并前往普林斯顿大学与图像压缩和数据处理领域的明星英格丽德·多贝西(Ingrid Daubechies ,1954 - ,2023 年沃尔夫数学奖得主 https://www.simonsfoundation.org ... -ingrid-daubechies/ ,参阅小乐数学科普:2023 年沃尔夫数学奖授予英格丽·多贝西(Ingrid Daubechies)她的《小波十讲》让小波变换广为人知 )一起工作。有一次,多贝西递给她一篇关于压缩感知(compressed sensing ,简称 CS ,也被称为压缩采样compressive sampling 、稀疏采样 sparse sampling ,即从少量的线性测量中还原高维的信号,https://en.wikipedia.org/wiki/Compressed_sensing zzllrr小乐译注)新领域的论文,融合了沃德最喜欢的概率、凸优化和分析等主题。经过一个夏天的阅读和几年不同方法的尝试,沃德给出了多贝西记忆中关于这个新领域的“美丽见解”。

假设你要拍摄一张简单绘图的照片,然后重新构建。与其记录图像的每个像素——将每个像素标记为“黑色”或“白色”(这将占用数十万位内存),不如只保存颜色变化的相对较少的位置,以便重建绘图。这个想法是许多图像处理的基础。在多贝西交给沃德的论文中,作者 Emmanuel Candès(伊曼纽尔·康德斯,1970 - ,法国统计学家),Justin Romberg(贾斯汀·隆伯格,佐治亚理工大学教授)和陶哲轩(Terence Tao)勾勒出压缩感知,这是一种新算法,其中只需要保存一些这种变化。

沃德的见解认识到了一种直接的方法来验证和测量该算法的误差。她将压缩感知与 1980 年代的一个定理联系起来,称为约翰逊-林登施特劳斯引理(Johnson-Lindenstrauss lemma),该定理后来被证明对机器学习和计算具有巨大的影响。

想象一下,将花瓶切成横截面。根据切割的角度,你的部分将类似于圆形、椭圆形或可能倾斜的花瓶轮廓。Johnson-Lindenstrauss 引理告诉我们,在某些情况下,如果你拍摄足够多的这些横截面图像并适当地组织它们,你就可以完全重建花瓶。换句话说,如果你从较低维度(在本例中为二维照片)拍摄足够多的图像,则可以在较高维度(这里为三维花瓶)重建对象。

为了验证这一概念,沃德从压缩感知中征用了一些测量值,将 Johnson-Lindenstrauss 引理应用于它们,并利用该结果定义了压缩感知算法误差的尖锐界限(sharp bounds ,该译名可能有误,定义请参考 wikipedia https://en.wikipedia.org/wiki/Gl ... atical_jargon#sharp zzllrr小乐译注)。

“这是一个如此美丽但又简单的想法,如果她向在该领域工作的其他人透露一句话,他们就会立即看到它的全部范围及其后果并开始工作——我希望她得到荣誉,”多贝西回忆道。

正如沃德在 2009 年发表她的研究结果时 https://ieeexplore.ieee.org/abstract/document/5319752 ,压缩感知领域正在爆炸式增长。现在,压缩感知被用于从面部识别到天文学的各种应用中,而这些方法只是沃德用她广泛的见解验证的众多方法中的第一种。

培养广阔的视野


图源:oden.utexas.edu

她的下一个重大轰动发生在她在纽约大学库朗研究所的博士后期间,在那里她继续研究 Johnson-Lindenstrauss 引理(称为随机降维的领域的基础)和压缩感知之间美丽而意想不到的联系,这两个领域在此之前被认为是完全独立的。她与费利克斯·克拉默(Felix Krahmer)一起工作,后者现在是慕尼黑工业大学的教授。

“总的来说,她对事物有很好的直觉和感觉;她有一种感觉,应该有某种联系,”谈及 Johnson-Lindenstrauss 引理和压缩感知时,克拉默说。“已经公布了一个方向,但另一种方式就不那么简单了。她有一种感觉,应该有一些可行的事情,事实上,事情非常与此接近。”
2011 年,沃德和克拉默重新检查了 Johnson-Lindenstrauss 引理的条件 https://epubs.siam.org/doi/abs/10.1137/100810447 ,并通过仔细细致地引入“随机性”来优化算法。也就是说,他们以最小的条件为中心,并编写了一个表达式,限制了重建高维对象所需的低维(在上面的例子中,二维是重建三维对象的低维)。从那时起,从随机降维和压缩感知到指纹匹配和MRI等领域的数百名研究人员已经建立在克拉默所说的“仍然是他引用最多的论文”的基础上。

这篇论文足以让沃德在她三年博士后职位的第二年获得几份工作机会。她选择回到德克萨斯大学奥斯汀分校从事终身制工作,自 2011 年以来,除了在工业界工作过几次外,她一直留在那里。

“视野开阔的人做得更好,我认为瑞秋绝对是其中之一,”尼德尔说。“她在非常广泛的数学领域拥有丰富的专业知识。她带来了一套工具,也许其他从事该领域问题的人不一定能快速使用。”

沃德优先考虑与他人合作,将她不拘一格的专业知识带到各种主题中。

“一个数学家自己单打独斗工作的想法是一种刻板印象,随着我们走向一个更加全球化、相互联系、跨学科的研究社区,这种刻板印象变得越来越不重要,”沃德解释说。“越来越多的重要工作正在小组和协作中完成。”

始终建立新的联系

沃德对合作的关注对她的工作很有帮助,她一直发现自己处于“热门”领域的最前沿。2014年,她与芝加哥大学的尼德尔和 Nati Srebro(纳蒂·斯雷布罗)共同发表了她迄今为止被引用次数最多的论文 https://proceedings.neurips.cc/p ... 41b7b-Abstract.html ,将一个称为随机梯度下降的领域与另一个称为随机 Kaczmarz 算法的领域联系起来。Kaczmarz 算法始于1930 年代,旨在求解方程组;它在 2009年以随机性进行了更新。自她发表以来,这两个领域的近 600 篇论文引用了该研究,证明了随机 Kaczmarz 算法是随机梯度下降的特例。

随机梯度下降用于机器学习、神经网络、人工智能等领域,是一种用于最优化的算法。如果将函数想象成一座山丘,则任何给定点的梯度都是山丘的坡度。要前往山顶,你站在那个点,面对梯度,然后朝那个方向迈出一步。接下来,你从你的新位置找到梯度,朝那个方向迈出一步,然后继续这个随机梯度下降算法,直到山丘变平坦。

多年来,应用研究人员依靠随机梯度下降来优化各种函数,但它并不总是有效,因为它依赖于步长——对于特别颠簸的山坡,你可能在向上移动之前效率低下,或者永远无法到达山顶。接下来是一种算法,该算法根据先前观察到的梯度动态改变步长,这是一种称为自适应梯度下降(adaptive gradient descent)的新风格,现在被广泛用作行业标准。不幸的是,自适应梯度下降只能保证对特定条件下的函数起作用。

沃德对她最近在自适应梯度下降方面的工作感到最兴奋。2020 年,她和来自 Microsoft(微软) 和 Facebook Research(脸书研究院) 的研究人员(包括她的一位前学生)取消了这些条件 https://dl.acm.org/doi/abs/10.5555/3455716.3455935 ,证明即使在看起来不稳定的山丘上,自适应梯度下降也能取得成功。就像她对压缩感知和 Johnson-Lindenstrauss 引理所做的那样,沃德阐明了该方法背后的数学原理,证明了自适应梯度下降实际上适用于比以前认为的更广泛的条件。

“我最喜欢的是在我思考问题的方式和其他人思考的方式之间找到一种新的联系,”沃德说。“通过与许多不同的人合作,你的世界观不断扩大,你继续保持谦卑和受到挑战。”

附:

瑞秋·沃德(Rachel Ward)在 2022 年 ICM 国际数学家大会受邀演讲主题为《随机梯度下降 SGD :最优化与机器学习的结合》,内容简介如下:

随机梯度下降(SGD)是现代机器学习中训练神经网络的事实上的优化算法,因为它对问题大小具有独特的可扩展性,其中要优化的数据点的数量和自由参数的数量达到数十亿。一方面,从随机逼近到求解线性系统的随机 Kaczmarz 算法,随机梯度下降的许多数学基础是在现代深度学习出现之前几十年发展起来的。另一方面,现代机器学习中随机梯度下降的无处不在,以及在实际环境中优化 SGD 性能的重要性,激发了新的算法设计和数学突破。在本次演讲中,我们首先简要介绍随机梯度下降的历史。然后,我们讨论了随机梯度下降的自适应梯度变体的最新突破,这对解决 SGD 的最薄弱点之一有很大帮助:其敏感性和对超参数的依赖性,尤其是步长的选择。

原创 zzllrr小乐 zzllrr小乐 2023-11-26 00:03 发表于江苏

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-4-28 19:17 , Processed in 0.267578 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表