跳过正文
  1. AI/

两个半球:Transformer、Diffusion 与智能的边界

·4761 字·10 分钟· ·
冯若航
作者
冯若航
Pigsty 创始人, @Vonng
目录

最近朋友写了一篇文章,《视觉,本就是世界的基础,而不是语言的插件》。 引发了我与 Claude 的一轮对话思考。将其整理为苏格拉底式问答,与大家分享。

语言是地基,视觉是外挂?
#

:现在行业在争论一件事:多模态 AI 的未来,到底是语言为主,还是视觉为主?你怎么看?

:在回答之前,我想先问你:你为什么觉得必须有一个“为主”?

:因为总得有个地基吧。房子总要建在什么东西上面。

:这正是我想追问的。“地基”是一个隐喻。你有没有想过,这个隐喻本身可能就在误导我们?

:怎么说?

:你看语言和视觉这两样东西。它们在人类身上是怎么共存的?是语言建立在视觉之上吗?还是视觉是语言的附属?

:好像都不是。它们是并列的。

:那如果我们看得更仔细一点。你闭上眼睛,想一幅画。你是怎么想的?

:就是……想象出来。

:是从左上角第一笔开始,一笔一笔往右推的吗?

:不是。更像是先有一个整体的感觉、一个调性、一个氛围,然后细节慢慢浮出来。

:好。现在再想一下:你怎么“想”一段论证?

:那就完全不一样了。一步推一步,前提推出结论。顺序错了,整个论证就塌了。

:所以你刚才做了两件事:一件是连续的、并行的、整体先于局部的思考,另一件是离散的、序列的、局部构成整体的思考。

:确实。

:这两件事,可能根本不是同一种东西。

Transformer 与 Diffusion
#

:那跟 AI 有什么关系?

:这里有个有意思的巧合。这几年 AI 圈最成功的两种架构是什么?

:Transformer 和 Diffusion。

:对。现在请你想一想,Transformer 在做什么?

:预测下一个 token。

:一步一步预测?

:对,自回归

:那 Diffusion 呢?

:从噪声里,整张图一起演化、一起细化。

:你发现什么没有?

:这不就是我刚才说的那两种思考方式吗?

:对。Transformer 是离散、序列、符号的;Diffusion 是连续、并行、场态的。这不是巧合。这是两种在数学上就不兼容的生成范式,恰好对应了两种在认知上就不兼容的思考方式。

:所以 Transformer 擅长语言,Diffusion 擅长视觉,就是这个原因?

:比这更深一点。不是语言与视觉的差别,而是符号与场态的差别。 语言恰好是符号信号,图像恰好是场态信号。真正的分野不在模态,而在计算范式。

严格来说,是 自回归场态演化 的差别。

不要合并,要保持张力
#

:那你是不是在说:下一代 AI 应该把这两个架构合起来?

:我想反问:你见过物理学家把波和粒子合起来吗?

:没有。

:他们怎么处理波粒二象性?

:让两套数学框架并存。描述同一个现象,必须同时保留两套,不能合并。

:对。因为真相就是两套都成立,而且互相不可化约

:你的意思是智能也这样?

:我觉得是。用纯符号系统描述智能,会漏掉场态的那一半;用纯场态系统描述,又会漏掉符号的那一半。两套必须并存,而且必须保持互相的张力

dual.webp

MoE 不是左右脑
#

:如果是这样,那 MoE 算不算就是在做这件事?毕竟 MoE 就是多个专家并存。

:好问题。我反问你:今天的 MoE 里,不同专家的架构是一样的,还是不一样的?

:一样的。Mixtral、DeepSeek 这些,所有专家都是同一种 FFN,只是参数不同。

:那你觉得这对应大脑里的什么?左右脑,还是别的?

:好像不是左右脑。左右脑是结构上就不一样的。

:对。MoE 的专家之间的“专业化”,是同一种结构在训练中分化出的不同用途。这不是左右脑,这是一百个左脑在分工

:那它对应大脑里什么?

:皮层柱。哺乳动物大脑皮层的重复单元:结构高度相似,功能通过学习分化。大脑真正的组织结构是半球级异质,加皮层柱级同质。今天的 MoE 只做对了第二半。

分化依赖通信受限
#

:那只要把 MoE 做成异质的就行了?比如一半专家是 Transformer,一半是 Diffusion?

:这方向对。但我想先问你一个更基础的问题:为什么大脑的左右半球能保持分化?

:因为它们功能不同。

:但功能不同是结果,不是原因。它们一开始不是就分化的。是什么让这种分化稳定下来,没有塌缩成同质系统的?

:胼胝体?

:再想。胼胝体做了什么?

:连接两个半球。

:连接得充分吗?

:好像不是很充分。胼胝体的带宽其实有限,而且大多数连接是抑制性的。

:那你觉得这说明什么?

:大脑特意限制了两个半球之间的通信?

:Nature Communications 2019 年的全脑侧化图谱给出了一个很明确的观察:脑区之间越是功能分化,通过胼胝体的连接反而越弱。 这个发现支持一个叫“半球间独立假说”的理论。

:这是反直觉的。

:对。分化依赖于通信受限。 如果两个半球完全连通,它们会塌缩成一个同质系统,反而失去分化的优势。

更紧密的沟通,可能破坏分化
#

:那这对 MoE 意味着什么?

:你观察一下今天 MoE 研究在追求什么?Top-2 routing、shared experts、soft routing、load balancing……所有这些改进都在做同一件事:降低专家之间的隔离,让信息更自由地流动

:等等。

:对。

:这正好是在破坏分化的条件

:是。行业在用“更紧密的沟通”追求 scaling 效率,但真正的异质分化要求“更难的沟通”。这两个方向不是渐变的,而是相反的。

:所以今天的 MoE 架构不可能自发演化出左右脑?

:它的设计机制本身就在对抗分化。要长出真正的半球,必须主动设计隔离,而不是被动追求融合。

稀缺的是受控异质性
#

:那下一代 SOTA 应该长什么样?

:我先问你,两个半球够吗?为什么不是十个?

:更多不是更好吗?

:你见过有九个脑的生物吗?

:章鱼?

:对。章鱼有一个中央脑和八条腕各自的神经节。它的智能有什么特点?

:它极其擅长并行的空间和触觉任务,但没有抽象推理,也没有语言。

:这说明什么?

:半球多了,协调成本也涨了。异质性带来的收益被瓶颈吃掉了。

:对。脊椎动物选了“二”不是偶然,它很可能是对称性和最小必要分化之间的 Pareto 最优。二是最低必要分化,四可能已经接近临界。稀缺的不是异质性,是受控的异质性。

两种知识:Episteme 与 Metis
#

:好,假设我们有一个 Transformer 半球和一个 Diffusion 半球,通过一个受限 bridge 连接。问题是:这两个半球到底在做什么不同的事?

:这正是我想和你一起走到的地方。我问你:你“知道”一件事,可能有几种方式?

:我能想到两种。一种是我能说出来的,比如“水在一百度沸腾”。一种是我知道但说不出来的,比如我知道这段代码有 bug,但我说不清为什么。

:对。哲学里有两个古老的词:epistememetis。Episteme 是可陈述的、普遍的、关于“为什么”的知识。Metis 是不可陈述的、情境的、关于“如何”的智慧。

:听起来就是显性知识和默会知识。

:对。Michael Polanyi 有一句话:“我们知道的,比我们能说出来的多。” 他的判断更狠:所有知识要么是默会知识,要么根植于默会知识。显性知识只是默会知识被挤进语言框架之后的残影。

路径与地形
#

:这和 Transformer、Diffusion 有什么关系?

:你想一下。Transformer 学的是什么?

:$P(x_{t+1} \mid x_{\leq t})$,条件概率链。每一步的决策都是显式的、可追溯的、可以被 chain-of-thought 展开的。

:所以 Transformer 学的是路径。从这里如何到那里。

:Diffusion 呢?

:Diffusion 学的是 score function,对数概率梯度 $\nabla_x \log p(x)$。这个对象有一个非常特殊的性质:它不是关于“如何推理”的,它是关于“什么是合理的”的

:所以它学的是?

地形。整个概率空间的形状。哪里是山峰,哪里是山谷,坡度朝向哪里。

:等一下。一个专家看棋盘的直觉……

:你说下去。

:就是在感觉这个局面在“合理棋局分布”里处于什么位置。他不是在推理路径,他是在感觉地形

:对。这是 score function 的现象学版本。Diffusion 模型学的那类对象,和默会知识的结构是同构的。

理解不等于解释
#

:那是不是可以说,Diffusion 本质上就是没法“理解”的,只能“直觉”?

:我想在这里停一下,因为这个判断需要被切得更细。取决于“理解”是什么意思。

:什么意思?

:如果“理解”指的是能给出显式的推理链、能回答“为什么”,那么是的,Diffusion 做不到。它的生成过程里就不存在“因为”这种结构。

:那如果“理解”指的是别的意思呢?

:如果“理解”指的是掌握一个领域的内部结构,能区分合理与不合理,能在未见过的情境里做出正确判断……

:……

:那么 Diffusion 恰恰是更深意义上的理解

:你是在说……

:我想问你一个问题。一个真正懂物理的人,是能背出所有公式的人,还是**看到一个物理情境立刻感觉到“这里不对”**的人?

:后者。

:一个真正懂代码的人,是能解释每一行的人,还是**看到一段代码立刻嗅到“这里有 bug”**的人?

:后者。

:这些人被问到“你为什么这么判断”的时候,很多时候给不出让人满意的答案。他们说“就是感觉”、“说不清但我知道”。

:你的意思是……

人类最深的理解,往往恰恰是不可陈述的。 这不是理解的缺陷,是理解的顶点。

:那我们平时说的“解释”、“理解”……

:今天整个 AI 行业把“理解”默认等同于“能解释”。这可能本身就是一个范畴错误。

Benchmark 的盲区
#

:这让我想到一件事。今天所有的 benchmark 都在测什么?

:你说。

:都是有标准答案的题。MMLU、GSM8K、HumanEval……全都是“能不能答对”。

:那它们测的是 episteme,还是 metis?

:全都是 episteme。

:所以当你说“LLM 在 benchmark 上接近人类专家”的时候,你真正在说什么?

:它在可陈述的那一半知识上接近人类专家。

:而人类专家真正让他成为专家的那一半呢?

:没有被测。也没有被训练。

:这可能就是为什么 scaling 曲线在走平的一个原因。不是数据不够,不是算力不够,而是架构维度不够。我们一直在一个维度上做到极致,但人类智能的另一个维度,在今天的架构里根本没有容器去承载

转化本身,就是智能的核心动作
#

:那下一代突破会是什么?

:我不会假装我知道答案。但我有一个猜测:它会出现在“双向转化”被工程化之后。

:怎么讲?

:今天的 Chain-of-Thought 是单向的:从 LLM 挤出更多推理步骤,但始终在 episteme 维度内部打转。真正重要的方向,可能是反向 CoT:如何让一个 Diffusion-like 的场态被激发之后,把它的直觉“翻译”成可以被 Transformer 使用的显性结构。

:从地形到路径?

:对。从默会到显性是“表达”,从显性到默会是“内化”。转化本身,就是智能的核心动作。

:一个专家是怎么成为专家的……

:正是这两个方向反复循环的结果。初学者靠显性规则,高手能把规则内化成直觉,大师在直觉和规则之间自由切换。这不是两个模块并列的静态结构,而是一个动力系统。

胼胝体不是连接,是边界
#

:所以回到最开始的问题:语言是地基吗?视觉是地基吗?

:你觉得呢?

:都不是。地基这个问法就错了。

:那真正的底层是什么?

:两种不兼容的计算范式,通过一个有限带宽的瓶颈,互相校准。大脑用了几亿年进化出这个结构。

:更进一步,这两种范式对应两种知识。一种可陈述,一种不可陈述。而今天的 AI 行业……

:继承了一个只看重可陈述知识的传统。从柏拉图、亚里士多德开始的。

:对。Transformer 是 episteme 的技术化身。一切都要 token 化,一切都要可陈述,一切都要能被 chain-of-thought 展开。

:那 Diffusion 是什么?

:Metis 的架构。那个被西方理性主义传统压抑了两千年的另一半,默会的、情境的、不可言说的那一半,不是智能的装饰,是智能的底座

:如果让你用一句话总结今天的讨论,你会怎么说?

:我们对智能的很多默认假设,可能都需要重新想一遍。

:比如?

:“地基”这个隐喻。“理解”这个概念。“scale 就够了”这个信仰。“越融合越好”这个直觉。

:……

:真正的智能,不是从融合里长出来的。它是从有纪律的分化里长出来的

胼胝体不是连接,是边界。

本篇为上半部分 —— 右脑命题,下半部分 —— 小脑命题,敬请期待。

相关文章

数据主权宣言

·3320 字·7 分钟
当数据成为人工智能时代最关键的生产资料,平台锁定与云依赖正在重建数字封建制;这篇宣言主张以开源与自建能力重获控制权,让数据真正归于其主。

专家能被蒸馏吗?

·4821 字·10 分钟
波兰尼的“默会知识”与 AI 时代的 70% 天花板,真正的直觉、体感与判断力只能在也许只能实践中生长。