2020 年 1 月,OpenAI 发表论文《神经语言模型的规模法则》(Scaling Laws for Neural Language Models),提出规模法则:“通过增加模型规模、数据量和计算资源,可以显著提升模型性能。”在 AI 领域,规模法则被一些人认为是“公理”,俗称“大力出奇迹”,OpenAI 等龙头企业和美国的 AI 投资界把它当成制胜法宝。
鼓吹“Scaling Law”的人,常以强化学习之父理查德·萨顿(Richard S.Sutton)的文章“苦涩的教训”作为追求高算力的依据:“研究人员曾一次又一次试图通过精巧的工程设计来提升性能,但最终都败给了简单粗暴的‘加大算力’方案,历史证明,通用方法总是在 AI 领域胜出。”但是,萨顿本人这两年对“Scaling Law”做了深刻反思。他指出,虽然 Scaling Law 在提升模型性能方面确实有效,但它并不是解决所有问题的万能钥匙。AI 系统不仅需要具备强大的计算能力,还需要具备持续学习、适应环境、理解复杂情境等能力,这些能力往往难以通过简单地增加算力来实现。
DeepSeek 的出现,逼迫 AI 界严肃地思考这一技术发展路线问题:是继续投入巨资追求高算力,还是另辟蹊径,在算法优化上下更多功夫?DeepSeek 的问世标志着人工智能训练模式从“大力出奇迹”的外延式发展阶段,转向集约化系统优化的内涵式发展阶段。DeepSeek 的成功并没有否定算力在人工智能发展中的重要作用。实际上,由于用于推理的设备比训练设备多得多,推理所需要的算力将来会成为主要需求。但绿色发展是必须遵循的大原则,降低人工智能所需要的能耗一定是科技界的重要目标。
3 发展“通用人工智能”(AGI)应选择什么道路
“通用人工智能”是一个模糊的没有形成广泛共识的术语。OpenAI 公司追求的通用人工智能(artificial general intelligence,AGI)是其中的一种,指的是 AI 在多个领域以人类水平处理复杂问题的能力。人工智能界有一个莫拉维克悖论:“复杂的问题是易解的,简单的问题反而是难解的。”从这个角度看,能解复杂问题的人工智能不一定就是通用人工智能。许多人认为,能够应对设计者预料之外的情况,才叫“通用”。因此,人工智能学术界更关注智能系统持续学习,自我改进的能力。人工智能的通用性不仅表现在对语言的处理上,还包括像人一样基于常识和日常经验与外部客观世界互动的能力。
DeepSeek 发布以后,斯坦福大学华裔科学家李飞飞指导的团队,以阿里通义千问(Qwen)模型为基础,通过“蒸馏”谷歌的 AI 推理模型 Gemini 2.0 Flash Thinking Experimental ,并结合 SFT 技术,使用 16 个英伟达 H100 GPU 进行了 26min 的训练,以不到 50 美元的云计算费用成功训练出 s1 模型,其性能超过了 Open AI 的 o1-preview 模型。这种低训练成本的模型的通用性可能不如大公司的模型,但令人吃惊的低成本可在某些应用上做到与高端模型相媲美的性能,显示出人工智能的低成本化还有巨大的提升空间。
低成本是技术普及的基本要求,蒸汽机、电力和计算机的普及都是其成本降低到大众可以接受时才做到的,人工智能肯定也会走这条路。目前,盲目地追求高算力导致人工智能的成本居高不下,阻碍了人工智能技术的大规模普及。DeepSeek 不仅是技术突破者,更是规则重构者,开辟了一条低成本发展人工智能的可行之路。DeepSeek 的崛起说明 AI 不再局限于简单堆砌算力,而是进入了以追求高算效和高能效为主的新阶段。
5 “开源”为什么有这么大的威力
过去几年,开源大模型的性能始终与龙头企业的闭源大模型有一代以上的差距,这一次 DeepSeek 的性能追上了闭源模型,大大增强了开源社区的信心。图灵奖得主杨立昆认为,“对 DeepSeek 崛起的正确解读,应是开源模型正在超越闭源模型”。这一评价十分中肯,因为改变 AI 发展模式比单项技术的突破更重要。
虽然 OpenAI 为代表的生成式人工智能红红火火,但多数企业不敢将本公司的数据交给私有 AI 平台生成自己的垂直模型,因为害怕提交的数据泄露自己的技术机密。人工智能之所以在各个行业难以落地,这可能是一个根本性的原因。DeepSeek 的彻底开源模式破解了这一难题,现在全世界的企业和用户都可以将 DeepSeek 提供的小而精的模型下载到本地,即使断网也可以“蒸馏”出高效率的垂直模型,真正实现了技术的民主化。
长期以来,美国的 AI 龙头公司夸大开源 AI 的安全风险,力图通过监管抑制开源 AI 。事实上,开源模型对于全球 AI 供应链至关重要,发展中国家尤其需要开源 AI 技术。若美国继续在这一领域设置障碍,中国就有望在开源 AI 全球供应链中占据核心地位,从而使更多企业转向中国企业而非美国企业的技术方案。
真正的 AI 竞争,不仅仅是技术和模型的竞争,更是生态系统、商业模式,以及价值观的竞争。开源模型让每个开发者都能轻松调用强大 AI 工具,不再受大公司的约束,AI 的进化速度将会明显提升。DeepSeek 的开源战略将向历史证明:在这场AI竞赛中,谁拥抱开源,谁就能赢得未来。
要实现人工智能自立自强,最困难的是构建自主可控的产业生态。英伟达公司的“护城河”不是 GPU 芯片本身,而是统一计算设备架构(compute unified device architecture,CUDA)软件生态。DeepSeek 冲击了 CUDA 生态,但没有完全绕过 CUDA ,其生态壁垒仍然存在。从长远来讲,需要开发一套比 CUDA 更优秀的自主可控的 AI 软件工具系统,重构 AI 软件生态。实现这个目标需要周密的规划和长期努力,相关部门应该下决心组织全国的开发力量,充分调动上下游企业的积极性,完成这件大事。
资金投入不是决定 AI 成败的唯一因素,但最近几年中国投资市场规模急剧萎缩值得警醒。CB Insights 数据显示,2023年,美国的 AI 投资达到 672 亿美元,是中国 AI 投资的 8.7 倍。这一年美国的 AI 投资实现了 22.1% 的增长,而中国 AI 私人投资下降了 44.2% 。其中,在生成式 AI 私人投资上,2023 年美国总投资额达到 224.6 亿美元,中国仅为 6.5 亿美元。风险投资和私募基金对于支撑科创产业极为重要,他们为创新起到了资金池和担保的作用。中美科创市场曾经并驾齐驱,但到 2023 年,中国科创投资额仅相当于美国的 8% 。尽管美国投资界追捧“大算力”,存在一定的泡沫,但正常的金融支持是发展 AI 的必要条件。政府和资本界要合力构建一个健康的科创金融生态,为创新提供必备的动力,这样才会有更多 DeepSeek 出现。
产业生态的形成也要靠市场牵引。国家要通过政策引导,鼓励在 PC 、手机和物端设备上推广 AI 应用,增强国产 GPU、CPU 和国产软件的市场占有率。要高度重视芯片设计和大模型的开源战略,争取中国在全球人工智能的开源系统中起到主导作用。我们需要在有限算力条件下,通过算法和软件的协同创新,充分发挥硬件的极致性能,挖掘所有可能的优化空间。国内的人工智能模型与美国的水平十分接近,我们要做好算力资源与人工智能平台的优化适配,力争中国的人工智能科研和应用走在世界前列。