59 年前的数学论文——算力受限背景下的技术突破

luyuanhong · 发表于 2026-1-25 23:43

59 年前的数学论文——算力受限背景下的技术突破

原创静思杂录静思杂录 2026 年 1 月 20 日 00:00 贵州

这是一个极具战略价值的案例——它揭示了在资源受限的困境下，如何通过认知重构和技术创新实现破局。

在全球 AI 技术竞争日益激烈的背景下，外部算力供应受限一度让业界担忧中国 AI 发展的未来。然而，DeepSeek 的梁文峰团队用一篇 1967 年的数学论文给出了工程师式的解决方案，为中国 AI 发展开辟了新的道路。

近年来，“没有 H100 ，中国 AI 还能不能走下去？”成为了行业内广泛讨论的话题。大多数人的答案似乎只有一个——等待解禁、等待新卡、等待下一代工艺。这种被动等待的心态反映了当时中国AI产业面临的现实困境：高端算力芯片获取受限，大模型训练陷入瓶颈。

DeepSeek 的梁文峰给出了一个截然不同的回答：如果路被堵了，就别挤了，换条路。他没有选择继续等待新的算力芯片，而是重新思考了一个被忽略很久的旧问题——在模型里，信息到底该怎么跑，才不会又慢又贵。

传统大模型的训练过程就像一辆重型卡车在一条信息高速路上行驶，车一辆接一辆，开得很稳，但也很重，对引擎要求极高。这种架构天然适合 H100 这样的高端算力芯片，因为它算力强、带宽大，能够承受信息流动过程中的浪费。然而，当算力成为边界条件时，这种架构的弊端就暴露无遗：信息在模型内部不断放大、传递、同步，形成了巨大的成本黑洞。

梁文峰团队进行了一次大胆的尝试，他们没有再去强化传统大模型这台“重型卡车”，而是把它拆了。这里的“拆”不是指削弱模型的能力，而是把一条单列的信息流拆成大量并行的小通道，就像把一辆重卡拆成 1 万辆摩托车同时跑。这种并行化的思路能够充分利用有限的算力资源，但也带来了新的问题：通道一多，模型就容易失控，训练过程中容易出现梯度爆炸的现象。这也是为什么行业里长期有个共识叫做“宽模型不经济”。

令人没想到的是，解决这个问题的底层逻辑居然来自一篇 1967 年的老论文，里面有一个叫 senna 的数学算法。59 年前，这个算法只是用来做矩阵归一化的基础工具；59 年后，它被梁文峰用在了今天最烧钱的地方——大模型训练。

senna 算法本质上做了一件非常朴素但极其关键的事情——给信息流立规矩。它规定了每一条信息通道进多少出多少，信息不能凭空放大，也不能无序堆积。这听起来很简单，但效果非常关键，因为它让大量并行的信息通道第一次可以稳定同时工作。而且更重要的是，这一步几乎不消耗额外算力，并且在高带宽但算力受限的环境下反而更合适。

通过应用 senna 算法，DeepSeek 团队取得了显著的成果：参数规模没有出现夸张膨胀，训练效率明显提高，显存占用下降，通信压力下降，更多类型的算力资源开始真正能用起来。这意味着在算力受限的情况下，中国 AI 产业依然能够实现高效的大模型训练。

这件事真正重要的并不是某一个模型赢了谁，而是它说明了一件事——当算力成为边界条件时，结构工程和数学同样可以成为突破口。这不是另辟蹊径的浪漫故事，而是一个被现实倒逼出来的理性选择。

更关键的是，DeepSeek 把这套方法开源了，这说明它不是在炫技，而是在做一种非常清醒的判断：当效率足够高，真正的价值在于让更多人用得起、跑得动。开源的举措将有助于推动整个行业的发展，让更多的企业和开发者能够受益于这一技术突破。

一篇 59 年前的论文，当然不可能决定或者改变一个时代，但在合适的时间被合适的人用在了合适的问题上，它就能改变一条路径。有时候技术进步不是拼谁站得更高，而是谁更早接受现实，然后把手里的条件用到极致。

在 AI 技术竞争日益激烈的今天，中国 AI 产业需要更多像梁文峰团队这样的创新者，他们能够在困境中寻找突破，用智慧和勇气突破技术瓶颈。未来，AI 下一轮真正拉开差距的可能不是更强的算力，而是更高效的工程和结构。

静思杂录

		自动登录	找回密码
密码			注册

59 年前的数学论文——算力受限背景下的技术突破

本帖子中包含更多资源

浏览过的版块