一场辩论之后，认真聊聊“本体论”

上个月我写了一篇文章叫《Palantir 的“本体论”骗局》，用一张“罗塞塔石碑”对照表说了一件事：Palantir 的 Ontology 在技术上就是数据库建模。Object Type 是表，Property 是列，Link 是外键，Action 是存储过程。

文章引发了激烈争论，最终演变成一场公开直播辩论。辩论的结果没啥悬念，观众投票中老冯以 75% 的支持率获胜。但赢个辩论没什么意义。上一篇只做了“拆”的工作。这一篇，我想把更深层的东西说清楚：本体论到底是什么？Palantir 到底对它做了什么？中国的模仿者为什么注定会失败？

太长不看
#

关于 Palantir

Palantir 的产品有真实的工程价值。数据建模、数据集成、数据分析，都是有尊严、有价值的工作。也有不错的战绩，但将其归因为本体论有严重的问题。

Palantir 本质上是披着 SaaS 皮的咨询公司。它的真正竞争力不在技术，而在 Peter Thiel 的政治关系网、人力密集的 FDE 驻场模式、以及 vendor lock-in 制造的路径依赖。Ontology 是掩盖这些真正竞争力的伪装。

Palantir 的"本体论"在技术上没有创新，是数据库建模的哲学包装。它的专利文件自己承认了这一点。Palantir 的"本体论"不是一个技术架构，而是一个叙事架构；它是营销上的创新，而非技术上的。

关于本体论

本体论是一门有两千五百年历史的哲学学科，承载着人类对"存在"的终极追问——什么东西存在？存在的根本结构是什么？这个问题没有唯一正确答案，哲学史上至少有多种互相竞争的范式，对应着不同的数据库建模哲学。

Palantir 版本的本体论只取了哲学本体论中的一个范式——亚里士多德实体本体论，把部分当整体，把一把锤子当成了"工具的哲学"。讽刺的是，物理学前沿和现代软件工程都在走向亚里士多德的精确反面：关系比实体更基本，事件比物体更基本。

关于中国模仿者

中国公司模仿 Ontology，是经典的货物崇拜（Cargo Cult）。Ontology 本来是 Palantir 用来掩饰自己核心竞争力的手段，结果中国一批公司把烟雾与泡沫当成了本体 —— 学了人家的皮毛，但没有人家的里子。

这种模仿很可能重走数据中台的老路：从神坛到坟墓只用了五年。中国技术生态缺乏自净能力——没有 Hacker News / Reddit 式的解构文化，对舶来概念容易产生"概念污染"。老冯嘲讽本体论，是为了清洁这个生态中的概念污染。

一、事实：Ontology 就是数据建模
#

专利文件里的说实话时刻
#

如果你想知道 Palantir 的 Ontology 到底是什么，不要看它的官网，去看它的专利。在需要说真话的场合，它自己交代了。Palantir 系列 Ontology 专利（US7962495B2、US9589014B2、US11714792B2 等）的 Background 部分，对 “Ontology” 这个概念给出了一个非常明确的定义：

Computer-based database systems, such as relational database management systems, typically organize data according to a fixed structure of tables and relationships. The structure may be described using an ontology, embodied in a database schema, comprising a data model that is used to represent the structure and reason about objects in the structure.
https://patents.google.com/patent/US7962495B2/en

这句话极其关键。专利白纸黑字写的是：

Ontology = embodied in a database schema = comprising a data model

也就是说，在 Palantir 自己的专利文本中，Ontology 就是 database schema，就是 data model。它不是什么“超越” schema 的东西，它就是 schema 本身的另一种表述方式。

有人可能会指出：Background 部分描述的是现有技术（prior art），不是 Palantir 自己的发明，那 Claims 部分是不是不一样？我看了这些专利的 Claims。结论是：Claims 部分把 “ontology” 定义得极其宽泛，基本上涵盖了“用一种结构来描述和管理数据”的一切方式，没有给出任何超越 data model 的具体技术定义。

换句话说，Background 说 ontology 就是 data model，Claims 没有反驳这一点，只是把定义拉得更模糊。如果 Palantir 的 Ontology 真有超越 data model 的革命性突破，专利律师一定会在 Claims 里精确描述这种超越性，因为更具体的创新意味着更强的专利保护。实际上他们没有，因为没什么可写的。

Palantir 有没有在做有价值的事？有。系统集成本身有真实的工程难度，把上述组件在军工级安全要求下整合运行，确实需要实力。但这件事的准确名称叫“系统集成”，不叫“本体论”。你不会把“装修”叫“空间本体论”，即使装修确实需要考虑空间的结构与功能。

多重偷换中最致命的一次
#

“Ontology” 这个词从哲学到 Palantir，经历了多次偷换：从不可数的学科名变成可数的商品名；从追求世界的真正结构变成追求“大家同意的模型”；从描述世界是什么样，变成规定世界应该被看成什么样。

但其中最致命的一次偷换，是 目的反转。

1993 年，Tom Gruber 在斯坦福设计 ontology（语义网上下文），论文标题叫 “Portable Ontology Specifications”，重点在 Portable。目的是知识共享和系统互操作，让不同系统能互相理解对方的数据。

Palantir 的 Ontology 反其道而行。建模需要数月，切换成本极高，数据难以迁出。2017 年，纽约警察局（NYPD）在终止 Palantir 合同时公开投诉：Palantir 拒绝以可迁移格式提供数据分析结果。NYPD 声称多次要求 Palantir 提供标准化格式的数据，但 Palantir 以“知识产权”为由拒绝配合，迫使 NYPD 要么继续使用 Palantir，要么放弃多年积累的分析成果。这一事件被 BuzzFeed News（原始报道，2017 年）和 Brennan Center for Justice（分析评论）详细记录。做空传奇 Michael Burry 后来也以此为例，直言 Palantir 的护城河就是“阻碍数据迁移”。

Gruber 设计 ontology 是为了造桥，Palantir 则把桥变成了墙，把开放协议变成了数字牢笼。

二、动机：胡萝卜与雷达
#

事实层面确认之后，自然要追问：既然技术上不新，Palantir 为什么非要用 “Ontology” 这个词？答案很简单，因为值钱。

估值叙事
#

如果 Palantir 跟华尔街说“我们的核心竞争力是帮客户做数据建模和系统集成”，分析师的参照系是 Booz Allen Hamilton（P/E 约 20x）或埃森哲（P/E 约 30x）；说“我们构建了 Ontology 平台”，参照系就变成 Snowflake、Databricks（P/E 约 100x+）。Palantir 目前的 P/E 超过 200 倍。

我不是说 Ontology 这一个词导致了全部的估值溢价。政商关系、高增长预期、政府合同粘性、AI 概念、稀缺的国防科技标的地位都在发挥作用。但 Ontology 叙事完成了一个关键的认知跃迁：帮华尔街把一家咨询属性极强的公司理解为一家纯软件平台公司。换个参照系，估值倍数差五到十倍。一个词值不值几百亿美元？Palantir 用行动回答了这个问题。

真正的护城河在华盛顿
#

1940 年，英国飞行员用绝密的机载拦截雷达在夜间击落德军轰炸机。英国政府为了保密雷达技术，散布虚假宣传：“飞行员吃了大量胡萝卜，所以拥有超强夜视能力。” 他们甚至创造了 “Doctor Carrot” 的卡通形象，英国公众完全相信。最讽刺的是，据传德国人也开始给自己的飞行员喂胡萝卜。

Ontology 就是 Palantir 的胡萝卜。

真正的杀手锏是雷达：CIA 起源的政商关系、最高安全许可、20 年国防实战经验。Palantir 2003 年成立，CIA 旗下 In-Q-Tel 在 2004 年投了约 200 万美元。金额不大，但这是美国情报界的“准入通行证”。有了这层背书，Palantir 获得了 Top Secret/SCI 安全许可，直接切入 9/11 后预算充沛的国防市场。到 2024 至 2025 年，军方合同令人咋舌：Project Maven 上限 12.75 亿美元，海军独家合同 9.2 亿美元，陆军企业级协议上限 100 亿美元。

这些合同是“本体论”拿来的吗？是 Peter Thiel 的政治关系网，是 20 年积累的安全许可，是谷歌等硅谷巨头因员工抗议放弃的军事合同被 Palantir 接盘。没有一条跟 Ontology 有关。

FDE：最诚实的反证
#

如果 Palantir 的 Ontology 真的是一个革命性的智能平台，为什么还需要数千名斯坦福、MIT 毕业的工程师长期驻扎在客户现场？

因为现实世界的企业数据极度混乱。任何静态模型遇到真实业务泥潭时都会瞬间失效。这些“前线部署工程师”（Forward Deployed Engineer，FDE）实际在做的是：写 ETL、调 Kafka connector、处理 schema 不兼容、手动清洗脏数据。全世界的系统集成商每天都在做同样的事。区别在于，埃森哲管这叫“交付团队”，不叫“前线部署工程师”。

系统越难用，客户越依赖 FDE；概念越晦涩，FDE 越不可替代。这不是 bug，这是 feature。

Michael Burry，这位做空次贷的传奇投资者，曾在社交媒体上直言 Palantir 是“伪装成 SaaS 公司的咨询公司”。FDE 的存在就是最好的注脚：如果你的“本体论平台”真的那么智能，为什么还需要这么多聪明人在旁边手动喂数据？

三、真正的本体论：数据库才是最接近的实践
#

到这里，“破”和“揭”的工作基本完成。但如果只停留在“Ontology 就是建表”，也是不够的。因为这句话虽然在事实层面是对的，却遮蔽了一个更有意思的问题：本体论，这门哲学里最古老的学问，跟数据库到底有什么关系？

答案是：关系极深。在人造工程中，数据库可能是与本体论最接近的东西。 而 Palantir 对本体论的理解之浅薄，恰恰证明了它在“哲学”这条赛道上也不合格。

两千五百年的追问
#

本体论追问一个问题：世界上到底有什么？存在的根本结构是什么？ 两千五百年来没有共识，不是因为哲学家不聪明，而是因为这个问题本质上没有唯一正确答案。你怎么切割世界，决定了你能看到什么。

而数据库，恰恰是对“怎么切割世界”这个问题的工程回答。每一种数据库范式，都暗含了一种对世界结构的假设。这不是我的过度解读。当你选择用关系模型而非图模型来建模一个业务领域时，你已经在做一个本体论层面的选择：你假设了“世界由具有属性的独立实体组成”，而非“关系比实体更基本”。

下面这张对照表是一个 启发性类比，不是严格的哲学史论证。没有哪个数据库设计者是因为读了某位哲学家才选择了某种范式。但这张表揭示了一个有趣的结构性同构：工程师在解决实际问题时做出的建模选择，恰好映射到了哲学家们争论了两千年的本体论立场。这种同构本身就是有启发意义的：

本体论立场	核心主张	对应数据库范式	工程含义
亚里士多德实体论	世界由有属性的独立实体组成	关系型数据库	实体建模，Schema-first
怀特海过程哲学	事件比物体更基本	Event Store / Kafka	事件溯源，append-only
结构实在论	关系比实体更基本	图数据库	关系建模，边比节点更重要
休谟束论	实体无固定结构	文档数据库	Schema-less，灵活文档
奥卡姆唯名论	只有孤立个体存在	键值存储	无结构，最小假设
赫拉克利特流变说	存在即变化	时序数据库	一切皆时间序列

这张表告诉我们什么？本体论不是一种方法，而是关于“有哪些可能的方法”的学问。 它追问的是：你手里应该拿锤子还是螺丝刀？每种工具预设了什么、擅长什么、遮蔽了什么？

Palantir 只拿了一行
#

看清这张表，你就知道 Palantir 做了什么：它只拿了第一行。 亚里士多德的实体论，实现为 Object → Property → Link → Action，然后管这个叫 “Ontology”。这就好比一个人只读了哲学史的第一章，然后宣布自己掌握了全部哲学。无知者无畏。

更致命的问题是，当你把一种特定范式命名为 “Ontology” 时，你实质上关闭了替代方案意识。一个叫 “data model” 的东西，工程师知道它是可以换的，换成图模型、文档模型、事件模型，各有各的好；但一个叫 “Ontology” 的东西，暗示它是世界的客观结构。谁会质疑“本体”呢？大词的危害，不是说错了什么，而是让你不再追问什么。

好的本体论实践长什么样
#

如果你真的想看什么是“好的本体论实践”，也就是不预设世界只有一种结构，而是按需选择建模方式，去看 PostgreSQL。

关系型是核心，但通过扩展兼容文档（JSONB）、图（Apache AGE）、向量（pgvector）、时序（TimescaleDB）、事件流（逻辑复制 + CDC）。一个系统同时支持多种本体论预设，让使用者根据具体问题选择合适的切割方式。

这不只是好的工程，也是好的哲学：承认世界不止一种结构，承认自己的视角有局限性。而 Palantir 的 Ontology，连自身范式局限性的意识都没有。

事件溯源：一个反例就够了
#

我不需要证明 Event Sourcing 比实体建模更好，我只需要证明：存在一种合法的建模范式，是 Palantir 的 “Ontology” 无法原生表达的。 这就足以证明它不配叫 “Ontology”。

Event Sourcing 的核心思想很简单：不记录“当前状态是什么”，而记录“发生了什么事”。状态可以从事件序列推导出来，反之不行。金融交易、物流追踪、微服务架构越来越多采用这种范式，不是因为工程师们读了怀特海的《过程与实在》，而是因为现实在教育他们：“事件比实体更基本” 这个直觉，在很多场景下是对的。

Palantir 的 Ontology 里有 Event Object，但事件始终是实体的附属品，必须通过 Link 挂在某个 Object 上，时序数据是 Object 的一个 Property。你不能告诉 Palantir：“我的整个领域模型以事件流为核心，实体状态只是派生视图。” 这种主从关系的根本反转，在 Ontology 框架中没有原生表达。

最讽刺的是，Palantir 自己的工程师在内部基础设施中用了 Event Sourcing，他们在技术博客里写过，Foundry 的作业编排后端从 CRUD 重写为事件溯源架构。自己吃肉，给客户啃骨头。

Palantir 卖的是 Types，而本体论的灵魂，是追问 Types 本身是否成立。

四、竹制跑道上的等待
#

货物崇拜
#

二战后，南太平洋土著岛民目睹美军飞机带来各种物资。战后美军撤离，岛民用竹子搭建控制塔，用椰子壳制作耳机，在丛林中清理出跑道，点火模仿引导灯。形式完美无缺，但飞机就是不来。

费曼 1974 年在加州理工毕业典礼演讲中讲了南太平洋货物崇拜的故事。这些岛民做的每一件事在形式上都对，跑道有了，塔台有了，耳机有了，但飞机不来。同样，很多研究在形式上也都对，有假设、有数据、有结论，但结果不可复现，因为研究者在过程中欺骗了自己。

部分中国厂商对 Ontology 的模仿，就是当代最典型的货物崇拜。国内一些咨询企业、数据中台企业热衷于将 Palantir 作为标杆，跟风声称自己的技术是“本体论”。这些公司系统性地忽略了 Palantir 真正的护城河：CIA 关系、安全许可、20 年国防经验，而去模仿最不重要的部分，一个术语。

Ontology 是 Palantir 用来掩饰核心竞争力的手段。中国模仿者把掩饰物当成了武器本身。

数据中台：我们已经走过的弯路
#

如果“货物崇拜”太遥远，这里有个中国人亲身经历过的例子。

Palantir 的 Ontology，约等于美国版的数据中台。

2019 年“数据中台元年”，CIO 们见面打招呼：“你们上中台了吗？还没有？你落伍了。” 然后，某零售集团 800 万中台沦为“数据展示屏”；某汽车企业 2000 万中台，ROI 从 1.8 骤降至 0.6；某集团 200 人中台团队不到一年裁撤。

2023 年，阿里这个始作俑者亲手把中台拆了。不论阿里拆中台的原因是什么，组织架构调整也好、业务分散化也好，这个动作在行业中的信号意义是明确的：连发明这个概念的公司都不玩了。2024 年，连 Gartner 都在其报告中将数据中台相关概念标记为“过时”。从神坛到坟墓，五年。

数据中台的技术本质是：数据仓库 + ETL + 元数据管理 + 数据服务 API + 一套管理学叙事。每个子组件都有十几年历史。Palantir 的 Ontology 本质则是：Table + Column + FK + SP + 一套哲学叙事。包装手法如出一辙，只是包装纸从管理学换成了哲学。

数据中台失败的根因，不是“统一数据管理”这个需求是假的，这个需求是真实的。问题在于，大词系统性地制造了错误的预期：既然是“中台”这个宏大的基础设施概念，那预算至少得千万级，周期至少得两年；如果叫“XX 数据仓库项目”，预期就回归理性了。Ontology 正在制造完全相同的错误预期。

现在 Ontology 在中国正处于 Hype Cycle 的期望膨胀阶段。这条曲线我们五年前刚走过一遍。五年后的你回头看今天，会觉得追本体论的这帮人，跟 2019 年追中台的那批人一模一样。

五、概念清洁工
#

好的抽象 vs. 坏的命名
#

有人会说：所有抽象都是重命名。SQL 就是集合论，OOP 就是带函数指针的 struct，React 就是状态机。按你的逻辑，所有软件创新都是旧瓶装新酒。

这个反驳听起来有力，其实混淆了两件完全不同的事。区分它们，只需要几个简单的测试。

好的抽象降低门槛。 SQL 让非程序员也能查数据，Kubernetes 让开发者不用关心机器分配。这些名字背后有真实的抽象层，屏蔽了下层复杂性，让更多人能使用。

坏的命名抬高门槛。 “Ontology” 把本来可以学会的东西，也就是 Data Modeling、数据库教科书前三章，变成了一个看起来学不会的东西。年轻工程师以为需要掌握深奥的新学科，其实 CREATE TABLE 就是起点。

好的抽象有开放实现。 Linux 有多个发行版，SQL 有几十种数据库，HTTP 是开放协议。

坏的命名制造锁定。 Palantir 的 Ontology 让你建模需要数月、切换成本极高、数据难以迁出。从桥变成了墙。

好的抽象叫什么，不影响使用。 你不需要知道 SQL 背后是关系代数，才能写 SELECT * FROM users。

坏的命名靠名字本身创造价值。 “我们需要建 Ontology” 和 “我们需要建统一数据模型”，在甲方心中会产生完全不同的预算期望：前者五千万三年，后者五百万三个月。

为什么老冯要批评本体论？
#

花花轿子众人抬，夸 Palantir 和本体论没有风险，但是批判它会得罪一大堆做数据咨询的公司。老冯是吃饱了撑着，跟 Palantir 有仇吗？没有。老冯不是跟 Palantir 过不去，我是看不惯滥用大词的行为。Palantir 只是这个现象的一个典型案例。

大词造成的危害是系统性的。每一轮大词都在消耗行业的信任：“云计算” 一轮，“大数据” 一轮，“中台” 一轮，“区块链” 一轮，“大模型” 也正在被滥用。每一轮过后，聪明人都会变得更 cynical；等真正有价值的新概念出现时，它们反而会被淹没在信任废墟中。

在美国，大词出来 48 小时，Hacker News 上就有人写 “X is just Y with extra steps”。中国技术生态缺乏这种自净机制。公众号的激励结构是“追热点”而非“戳泡沫”，写“保姆级 Ontology 全攻略”的流量远高于“Ontology 就是建表”。概念泡沫传进来就疯长，没人修剪。

硅谷既有“深圳的一面”，也有“驻马店的一面”。不是所有从美国来的东西都是好的。把“驻马店的概念”拿回国内当宝贝，不是技术引进，而是劣质概念进口。原产地至少还有 Hacker News 来清理，进口到国内连清理机制都没有。

我做这件事，就是因为这个生态缺一个“概念清洁工”。有人在思想与概念的世界里随地大小便，还是得有人站出来及时打扫干净，避免它慢慢变成粪坑。

尾声
#

做 Data Modeling，就说 Data Modeling。数据建模这个名字不丢人。Codd、Chen、Kimball、Inmon 用几十年心血赋予了这个名字尊严。当你用 “Ontology” 来命名 Data Modeling 时，不是在提升它的价值，而是在贬低 Data Modeling 的价值，暗示这个名字不够好，需要一个更大的词来撑场面。

我不反对创造新概念，我反对在概念世界里随地大小便。

当你看到下一个大词，无论它叫 World Model、Logos 还是别的什么，请先问一问：底层技术是什么？谁在从这个命名中获益？

实事求是，是工程师的基本素养。

太长不看#

一、事实：Ontology 就是数据建模#

专利文件里的说实话时刻#

多重偷换中最致命的一次#

二、动机：胡萝卜与雷达#

估值叙事#

真正的护城河在华盛顿#

FDE：最诚实的反证#

三、真正的本体论：数据库才是最接近的实践#

两千五百年的追问#

Palantir 只拿了一行#

好的本体论实践长什么样#

事件溯源：一个反例就够了#

四、竹制跑道上的等待#

货物崇拜#

数据中台：我们已经走过的弯路#

五、概念清洁工#

好的抽象 vs. 坏的命名#

为什么老冯要批评本体论？#

尾声#

相关文章