流形就是 f

读哈萨比斯"流形即规律"那篇随笔的二次理解
把 Scaling Law 批判翻译成策略工厂语言

2026-04-30  |  TZ DEEP READING

mp.weixin.qq.com/s/bnyNWLv9MFgCZebcPjaplQ

一、原文作者真正说了什么

哈萨比斯(Demis Hassabis,DeepMind CEO)在最近一次长访谈里抛出一句话——

我们所寻找的规律,可能就是流形(manifold)。 — Demis Hassabis

原文作者没去复述访谈全文,只抓了"流形"这一个钩子,顺着它一路推到底,得出四个结论:

  1. 流形是什么——在看似自由的高维空间里,真实存在的点不是均匀散布的,它们都聚在一个超平面上。在这个超平面上移动,阻力几乎处处相等;离开它,成本急剧上升。局部欧式、全局可以弯曲——这就是流形。
  2. 机器学习在干什么——本质上是在还原"对应领域的流形长什么样"。
  3. 教育在干什么——让人自己去感受所处的流形空间,以后需要在里面移动的时候,找到代价最小的那一条路径。费曼学习法是这件事的集大成者。
  4. Scaling Law 是浪费——用无脑堆参数的方法去强行拟合,本质是过拟合,泛化反而更差。"大模型越大越好"很可能是精度上来后的一种幻觉。

最后他用了两个类比把话说死:

类比一

飞行不需要翅膀——只要浮力大于重力就行。热气球懂了这一点,就不用非要去仿生鸟。同理,神经网络也不一定要靠堆参数实现智能,如果能把里面的流形提取出来,更简单的结构就够了。

类比二

孔子"七十而从心所欲,不逾矩"——本质是他活到那个年纪,已经摸清了世界的流形结构,做什么都自动走在最低成本的路径上。所以"从心所欲"和"不逾矩"是同一件事。

一句话总结作者的态度——

原文落点
奥卡姆剃刀万岁,永远别打太富裕的仗,富裕仗会让人失去智能。
. . .

二、为什么这个钩子戳到了我

读完之后我盯着"流形"这个词看了很久。它和我自己最近一年在反复确认的一件事,结构上完全一样:

我真正应该投资的,不是任何具体策略 S₀,而是生成策略的能力 f

把这两件事并排放在一起:

原文作者的语言(机器学习视角) 我自己的语言(策略工厂视角)
高维空间里散落的真实点 历史上跑出过的具体策略 S₀、S₁、S₂
这些点其实都贴在一个低维流形上 这些策略都来自同一个生成器 f
在流形上移动阻力最小 在 f 这一层做决策,单位成本最低
Scaling Law 强行拟合 = 过拟合 死命优化某一个 S₀ = 过拟合
应该做的是把流形提取出来 应该做的是把 f 显式化、参数化、可调用

这不是巧合。这是同一个东西的两种说法。

哈萨比斯说"我们寻找的规律可能就是流形"——翻译成我做事的话是:我们寻找的 alpha 可能就是 f。任何一个具体的 S₀,只是 f 在某个时点、某个市场切片下落出来的一个点。点会失效,f 不会。

同构
流形 = f。S₀、S₁、S₂... 是这个流形上散落的一些样本点。
. . .

三、带着流形视角,重新看几件事

把"流形 = f"这个等式拿在手里,回头看一些原本想不通的问题,会突然变清楚。

1. 为什么策略不能死命优化一个版本

死命优化某一个 S₀,相当于把所有算力堆到流形上的某一个点上。点周围的局部曲率你拟合得再精,也只是过拟合。市场往旁边漂一点,那个点就废了。

真正该做的,是从这个点出发去摸清楚周围一片流形长什么样——这就是为什么"参数扫描 + OOS 分段 + 环境分仓"比"调一组最优参数"重要。前者在试图描出流形的局部曲面,后者在膜拜流形上的一个点。

2. 为什么我对 Scaling Law 一直本能反感

不是反感大模型本身,是反感"不差钱所以堆"的姿态。

原文作者讲得很狠:富裕仗会让人失去智能。我自己做系统时也一直有同一种本能——能用脚本跑通的不用 API,能用便宜模型的不上贵模型,能 cache 的绝不重算。这不是抠门,是怕自己在富裕里失去对结构的敏感。一旦能用钱替代思考,思考就开始萎缩。

默认行为:能用脚本 → 不用 API
默认行为:能用便宜模型 → 不上贵模型
默认行为:能 cache → 不重算
原因:不在于省钱,在于强迫自己摸结构而不是堆资源

3. 为什么费曼学习法管用

因为费曼法逼你自己重新生成解释。你不能背一个结论交差,必须把那个领域的流形在自己脑子里重画一遍。重画过程中,哪一段你画不出来,就是你流形里的洞。

所有"看起来都懂、用起来不会"的状态,都是没有自己画过流形。

4. 为什么"从心所欲不逾矩"不是修养而是几何

原文作者这一刀切得最漂亮——

它不是道德层面的自律,是认知层面的几何性质。你已经知道流形长什么样了,你的"心所欲"就只能指向流形上的方向,所以自然不逾矩。

这和"老司机开车不需要思考挡位"是同一种状态:不是克制,是省力。

. . .

四、对我自己的几个动作项

写到这里,我没法只把它当一篇读后感。落到动作上:

  1. 策略迭代复盘加固定问题:"这次我是在拟合一个点,还是在摸流形?"如果是前者,明确标注"短保鲜期",不进核心库。
  2. 教学交付不要交付结论。结论是流形上的点,会过期。要交付的是"怎么自己重画流形"——也就是为什么这个结论在这个时点这个市场上立得住,以及流形漂了你怎么知道。
  3. 奥卡姆剃刀写进 default 行为。所有方案先问:能不能更省?能不能用更小的模型 / 更短的链路 / 更少的参数做到 80%?做不到 80% 再升级。
  4. 别在富裕里做决策。不是不能花钱,是花钱前先确认:是这件事必须用贵的,还是我懒得想清楚结构所以拿钱替换思考。后者就是富裕仗。
. . .

五、一句话留给后面的我

Bottom line
找流形,别堆点。

原文作者那篇随笔很短,但密度大到值得反复读。我做的不是转述,是把他抛出来的钩子接住、套到我自己的系统上拧一圈。如果你看完想读原作,文末有链接。