数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 402|回复: 0

推动数据分析进步|姚志刚团队与丘成桐团队合作成果发表

[复制链接]
发表于 2024-2-25 10:53 | 显示全部楼层 |阅读模式
推动数据分析进步|姚志刚团队与丘成桐团队合作成果发表

来源:姚志刚团队 清华大学丘成桐数学科学中心 2024-01-30 11:30 北京

推动数据分析进步

新加坡国立大学姚志刚团队和清华大学丘成桐团队推出高维数据非传统去噪新方法

在过去几十年里,随着数据收集与处理能力的显著提高,各行各业都在面对由海量高维数据带来的机遇与挑战。然而,在处理这些高维数据时,传统的数据分析方法往往过分依赖于特征间的线性相关性。尽管这些线性方法能够简化数据的表示形式,但它们在捕捉数据中的复杂模式方面却显得力不从心。一个典型的例子是,高维数据往往聚集在低维流形附近,而这些特征无法有效地通过低维线性结构来表达。

针对这一问题,流形学习技术成为一种具有前景的解决方案。然而,现有的流形学习方法,如基于流形结构的嵌入和去噪算法,因缺乏深入的几何理解和坚实的理论基础而受到限制。此外,在处理极大规模数据集时,这些技术常面临着计算效率和精度的双重挑战,特别是在生物信息学、金融分析和社会网络数据等应用领域中。

为了深入研究高维数据中的非线性结构,新加坡国立大学统计与数据科学系的研究团队和清华丘成桐数学中心团队提出了一种新算法。该算法基于数据统计分布和隐含几何结构,旨在从高维环境空间中的离散样本点恢复出光滑的低维流形结构。研究人员将高维空间中的观测样本视为未知流形的隐藏信息与环境噪声的混合体。他们通过利用数据中的几何平滑特征及统计收敛性质,估计样本点到流形的距离,并据此给出未知流形的估计及样本点到其上的投影。这种对流形的估计被证明具有给定维数的光滑流形特性,且其估计误差和收敛速度均优于现有方法。此外,为了应对数据维度和数据量的计算挑战,研究人员将此方法与深层生成对抗网络(GANs)结合(如图 1(c) 所示),通过循环生成对抗网络学习高低维空间之间的连续映射,来估计隐藏流形的指对数映射,并利用这些映射实现对隐藏流形的初步估计。团队已将该方法应用于欧式空间中的几何模型、卡拉比-丘流形,以及一系列图像数据(图 1 (a, d)),并正在尝试处理分析更高维度的前沿实验数据,例如单细胞 RNA 序列数据。这项工作预计将极大地改变我们处理高维复杂数据集域的效率,并提供潜在的新的视角。

PNAS  Vol. 121 | No. 5


图 1. 利用该研究中提出的算法拟合潜在流形的示意图。现实世界中的数据通常可被表示为高维向量, 如(a)中的图像数据。通常情况下,这些向量被认为分布在一个低维的未知流形附近(如(b)中黑色虚线所示)。利用(c)中展示的神经网络框架可以有效地学习这个潜在流形,并得到类似于(b)中红色曲线的估计值。这一方法有助于在高维环境空间内进行如(d)中所示的非线性插值和去噪,从而显著改善数据处理和分析。

该研究中的部分成果近日以“利用循环生成对抗网络进行流形拟合”(Manifold Fitting with CycleGAN)为题被《美国国家科学院院刊》(Proceedings of the National Academy of Sciences of the United States of America)接收。这项研究的完成单位是新加坡国立大学、丘成桐数学科学中心。论文第一作者为新加坡国立大学姚志刚教授,通讯作者为丘成桐数学科学中心丘成桐教授以及姚志刚教授,论文作者贡献相当。论文部分研究结果来自于姚志刚教授在哈佛数学和应用中心访问期间完成的工作。该研究得到了新加坡教育部研究基金的支持。

论文链接

www.pnas.org/doi/10.1073/pnas.2311436121



姚志刚,新加坡国立大学统计与数据科学系副教授兼终身教授。现为哈佛大学数学科学与应用中心访问成员,清华大学 YMSC 访问教授,也曾作为特邀客座教授访问瑞士洛桑联邦理工大学 (EPFL) 等大学。研究兴趣主要为复杂数据的统计推断。近年来专注于非欧式统计 (Non-Euclidean Statistics) 和低维流形拟合 (Manifold Fitting) 的研究。

姚教授在与丘成桐教授的合作和帮助下,致力于推动几何与统计的交互这一全新领域的研究。近年来,姚教授与其合作者提出在黎曼流形上重新定义传统 PCA 的 principal flow/sub-manifold 以及 principal boundary 等方法和理论,以及全空间下流形拟合的新方法和理论。这些方法通过挖掘隐藏在数据本身的几何结构,旨在解决传统统计方法和理论中的缺陷。目前,这些方法和理论已逐渐被用于大规模数据的分析包括单细胞测序数据和网络数据等。

清华新闻网报道

www.tsinghua.edu.cn/info/1175/109549.htm

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-4-25 12:00 , Processed in 0.096680 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表