上个月我写了一篇文章叫《Palantir 的“本体论”骗局》,用一张“罗塞塔石碑”对照表说了一件事:Palantir 的 Ontology 在技术上就是数据库建模。Object Type 是表,Property 是列,Link 是外键,Action 是存储过程。
文章引发了激烈争论,最终演变成一场公开直播辩论。辩论的结果没啥悬念,观众投票中老冯以 75% 的支持率获胜。但赢个辩论没什么意义。上一篇只做了“拆”的工作。这一篇,我想把更深层的东西说清楚:本体论到底是什么?Palantir 到底对它做了什么?中国的模仿者为什么注定会失败?
太长不看#
关于 Palantir
Palantir 的产品有真实的工程价值。数据建模、数据集成、数据分析,都是有尊严、有价值的工作。也有不错的战绩,但将其归因为本体论有严重的问题。
Palantir 本质上是披着 SaaS 皮的咨询公司。它的真正竞争力不在技术,而在 Peter Thiel 的政治关系网、人力密集的 FDE 驻场模式、以及 vendor lock-in 制造的路径依赖。Ontology 是掩盖这些真正竞争力的伪装。
Palantir 的"本体论"在技术上没有创新,是数据库建模的哲学包装。它的专利文件自己承认了这一点。Palantir 的"本体论"不是一个技术架构,而是一个叙事架构;它是营销上的创新,而非技术上的。
关于本体论
本体论是一门有两千五百年历史的哲学学科,承载着人类对"存在"的终极追问——什么东西存在?存在的根本结构是什么?这个问题没有唯一正确答案,哲学史上至少有多种互相竞争的范式,对应着不同的数据库建模哲学。
Palantir 版本的本体论只取了哲学本体论中的一个范式——亚里士多德实体本体论,把部分当整体,把一把锤子当成了"工具的哲学"。讽刺的是,物理学前沿和现代软件工程都在走向亚里士多德的精确反面:关系比实体更基本,事件比物体更基本。
关于中国模仿者
中国公司模仿 Ontology,是经典的货物崇拜(Cargo Cult)。Ontology 本来是 Palantir 用来掩饰自己核心竞争力的手段,结果中国一批公司把烟雾与泡沫当成了本体 —— 学了人家的皮毛,但没有人家的里子。
这种模仿很可能重走数据中台的老路:从神坛到坟墓只用了五年。中国技术生态缺乏自净能力——没有 Hacker News / Reddit 式的解构文化,对舶来概念容易产生"概念污染"。老冯嘲讽本体论,是为了清洁这个生态中的概念污染。
一、事实:Ontology 就是数据建模#
专利文件里的说实话时刻#
如果你想知道 Palantir 的 Ontology 到底是什么,不要看它的官网,去看它的专利。在需要说真话的场合,它自己交代了。Palantir 系列 Ontology 专利(US7962495B2、US9589014B2、US11714792B2 等)的 Background 部分,对 “Ontology” 这个概念给出了一个非常明确的定义:
Computer-based database systems, such as relational database management systems, typically organize data according to a fixed structure of tables and relationships. The structure may be described using an ontology, embodied in a database schema, comprising a data model that is used to represent the structure and reason about objects in the structure.
这句话极其关键。专利白纸黑字写的是:
Ontology = embodied in a database schema = comprising a data model
也就是说,在 Palantir 自己的专利文本中,Ontology 就是 database schema,就是 data model。它不是什么“超越” schema 的东西,它就是 schema 本身的另一种表述方式。
有人可能会指出:Background 部分描述的是现有技术(prior art),不是 Palantir 自己的发明,那 Claims 部分是不是不一样?我看了这些专利的 Claims。结论是:Claims 部分把 “ontology” 定义得极其宽泛,基本上涵盖了“用一种结构来描述和管理数据”的一切方式,没有给出任何超越 data model 的具体技术定义。
换句话说,Background 说 ontology 就是 data model,Claims 没有反驳这一点,只是把定义拉得更模糊。如果 Palantir 的 Ontology 真有超越 data model 的革命性突破,专利律师一定会在 Claims 里精确描述这种超越性,因为更具体的创新意味着更强的专利保护。实际上他们没有,因为没什么可写的。
Palantir 有没有在做有价值的事?有。系统集成本身有真实的工程难度,把上述组件在军工级安全要求下整合运行,确实需要实力。但这件事的准确名称叫“系统集成”,不叫“本体论”。你不会把“装修”叫“空间本体论”,即使装修确实需要考虑空间的结构与功能。
多重偷换中最致命的一次#
“Ontology” 这个词从哲学到 Palantir,经历了多次偷换:从不可数的学科名变成可数的商品名;从追求世界的真正结构变成追求“大家同意的模型”;从描述世界是什么样,变成规定世界应该被看成什么样。
但其中最致命的一次偷换,是 目的反转。
1993 年,Tom Gruber 在斯坦福设计 ontology(语义网上下文),论文标题叫 “Portable Ontology Specifications”,重点在 Portable。目的是知识共享和系统互操作,让不同系统能互相理解对方的数据。
Palantir 的 Ontology 反其道而行。建模需要数月,切换成本极高,数据难以迁出。2017 年,纽约警察局(NYPD)在终止 Palantir 合同时公开投诉:Palantir 拒绝以可迁移格式提供数据分析结果。NYPD 声称多次要求 Palantir 提供标准化格式的数据,但 Palantir 以“知识产权”为由拒绝配合,迫使 NYPD 要么继续使用 Palantir,要么放弃多年积累的分析成果。这一事件被 BuzzFeed News(原始报道,2017 年)和 Brennan Center for Justice(分析评论)详细记录。做空传奇 Michael Burry 后来也以此为例,直言 Palantir 的护城河就是“阻碍数据迁移”。
Gruber 设计 ontology 是为了造桥,Palantir 则把桥变成了墙,把开放协议变成了数字牢笼。
二、动机:胡萝卜与雷达#
事实层面确认之后,自然要追问:既然技术上不新,Palantir 为什么非要用 “Ontology” 这个词?答案很简单,因为值钱。
估值叙事#
如果 Palantir 跟华尔街说“我们的核心竞争力是帮客户做数据建模和系统集成”,分析师的参照系是 Booz Allen Hamilton(P/E 约 20x)或埃森哲(P/E 约 30x);说“我们构建了 Ontology 平台”,参照系就变成 Snowflake、Databricks(P/E 约 100x+)。Palantir 目前的 P/E 超过 200 倍。
我不是说 Ontology 这一个词导致了全部的估值溢价。政商关系、高增长预期、政府合同粘性、AI 概念、稀缺的国防科技标的地位都在发挥作用。但 Ontology 叙事完成了一个关键的认知跃迁:帮华尔街把一家咨询属性极强的公司理解为一家纯软件平台公司。换个参照系,估值倍数差五到十倍。一个词值不值几百亿美元?Palantir 用行动回答了这个问题。
真正的护城河在华盛顿#
1940 年,英国飞行员用绝密的机载拦截雷达在夜间击落德军轰炸机。英国政府为了保密雷达技术,散布虚假宣传:“飞行员吃了大量胡萝卜,所以拥有超强夜视能力。” 他们甚至创造了 “Doctor Carrot” 的卡通形象,英国公众完全相信。最讽刺的是,据传德国人也开始给自己的飞行员喂胡萝卜。
Ontology 就是 Palantir 的胡萝卜。
真正的杀手锏是雷达:CIA 起源的政商关系、最高安全许可、20 年国防实战经验。Palantir 2003 年成立,CIA 旗下 In-Q-Tel 在 2004 年投了约 200 万美元。金额不大,但这是美国情报界的“准入通行证”。有了这层背书,Palantir 获得了 Top Secret/SCI 安全许可,直接切入 9/11 后预算充沛的国防市场。到 2024 至 2025 年,军方合同令人咋舌:Project Maven 上限 12.75 亿美元,海军独家合同 9.2 亿美元,陆军企业级协议上限 100 亿美元。
这些合同是“本体论”拿来的吗?是 Peter Thiel 的政治关系网,是 20 年积累的安全许可,是谷歌等硅谷巨头因员工抗议放弃的军事合同被 Palantir 接盘。没有一条跟 Ontology 有关。
FDE:最诚实的反证#
如果 Palantir 的 Ontology 真的是一个革命性的智能平台,为什么还需要数千名斯坦福、MIT 毕业的工程师长期驻扎在客户现场?
因为现实世界的企业数据极度混乱。任何静态模型遇到真实业务泥潭时都会瞬间失效。这些“前线部署工程师”(Forward Deployed Engineer,FDE)实际在做的是:写 ETL、调 Kafka connector、处理 schema 不兼容、手动清洗脏数据。全世界的系统集成商每天都在做同样的事。区别在于,埃森哲管这叫“交付团队”,不叫“前线部署工程师”。
系统越难用,客户越依赖 FDE;概念越晦涩,FDE 越不可替代。这不是 bug,这是 feature。
Michael Burry,这位做空次贷的传奇投资者,曾在社交媒体上直言 Palantir 是“伪装成 SaaS 公司的咨询公司”。FDE 的存在就是最好的注脚:如果你的“本体论平台”真的那么智能,为什么还需要这么多聪明人在旁边手动喂数据?
三、真正的本体论:数据库才是最接近的实践#
到这里,“破”和“揭”的工作基本完成。但如果只停留在“Ontology 就是建表”,也是不够的。因为这句话虽然在事实层面是对的,却遮蔽了一个更有意思的问题:本体论,这门哲学里最古老的学问,跟数据库到底有什么关系?
答案是:关系极深。在人造工程中,数据库可能是与本体论最接近的东西。 而 Palantir 对本体论的理解之浅薄,恰恰证明了它在“哲学”这条赛道上也不合格。
两千五百年的追问#
本体论追问一个问题:世界上到底有什么?存在的根本结构是什么? 两千五百年来没有共识,不是因为哲学家不聪明,而是因为这个问题本质上没有唯一正确答案。你怎么切割世界,决定了你能看到什么。
而数据库,恰恰是对“怎么切割世界”这个问题的工程回答。每一种数据库范式,都暗含了一种对世界结构的假设。这不是我的过度解读。当你选择用关系模型而非图模型来建模一个业务领域时,你已经在做一个本体论层面的选择:你假设了“世界由具有属性的独立实体组成”,而非“关系比实体更基本”。
下面这张对照表是一个 启发性类比,不是严格的哲学史论证。没有哪个数据库设计者是因为读了某位哲学家才选择了某种范式。但这张表揭示了一个有趣的结构性同构:工程师在解决实际问题时做出的建模选择,恰好映射到了哲学家们争论了两千年的本体论立场。这种同构本身就是有启发意义的:
| 本体论立场 | 核心主张 | 对应数据库范式 | 工程含义 |
|---|---|---|---|
| 亚里士多德实体论 | 世界由有属性的独立实体组成 | 关系型数据库 | 实体建模,Schema-first |
| 怀特海过程哲学 | 事件比物体更基本 | Event Store / Kafka | 事件溯源,append-only |
| 结构实在论 | 关系比实体更基本 | 图数据库 | 关系建模,边比节点更重要 |
| 休谟束论 | 实体无固定结构 | 文档数据库 | Schema-less,灵活文档 |
| 奥卡姆唯名论 | 只有孤立个体存在 | 键值存储 | 无结构,最小假设 |
| 赫拉克利特流变说 | 存在即变化 | 时序数据库 | 一切皆时间序列 |
这张表告诉我们什么?本体论不是一种方法,而是关于“有哪些可能的方法”的学问。 它追问的是:你手里应该拿锤子还是螺丝刀?每种工具预设了什么、擅长什么、遮蔽了什么?
Palantir 只拿了一行#
看清这张表,你就知道 Palantir 做了什么:它只拿了第一行。 亚里士多德的实体论,实现为 Object → Property → Link → Action,然后管这个叫 “Ontology”。这就好比一个人只读了哲学史的第一章,然后宣布自己掌握了全部哲学。无知者无畏。
更致命的问题是,当你把一种特定范式命名为 “Ontology” 时,你实质上关闭了替代方案意识。一个叫 “data model” 的东西,工程师知道它是可以换的,换成图模型、文档模型、事件模型,各有各的好;但一个叫 “Ontology” 的东西,暗示它是世界的客观结构。谁会质疑“本体”呢?大词的危害,不是说错了什么,而是让你不再追问什么。
好的本体论实践长什么样#
如果你真的想看什么是“好的本体论实践”,也就是不预设世界只有一种结构,而是按需选择建模方式,去看 PostgreSQL。
关系型是核心,但通过扩展兼容文档(JSONB)、图(Apache AGE)、向量(pgvector)、时序(TimescaleDB)、事件流(逻辑复制 + CDC)。一个系统同时支持多种本体论预设,让使用者根据具体问题选择合适的切割方式。
这不只是好的工程,也是好的哲学:承认世界不止一种结构,承认自己的视角有局限性。而 Palantir 的 Ontology,连自身范式局限性的意识都没有。
事件溯源:一个反例就够了#
我不需要证明 Event Sourcing 比实体建模更好,我只需要证明:存在一种合法的建模范式,是 Palantir 的 “Ontology” 无法原生表达的。 这就足以证明它不配叫 “Ontology”。
Event Sourcing 的核心思想很简单:不记录“当前状态是什么”,而记录“发生了什么事”。状态可以从事件序列推导出来,反之不行。金融交易、物流追踪、微服务架构越来越多采用这种范式,不是因为工程师们读了怀特海的《过程与实在》,而是因为现实在教育他们:“事件比实体更基本” 这个直觉,在很多场景下是对的。
Palantir 的 Ontology 里有 Event Object,但事件始终是实体的附属品,必须通过 Link 挂在某个 Object 上,时序数据是 Object 的一个 Property。你不能告诉 Palantir:“我的整个领域模型以事件流为核心,实体状态只是派生视图。” 这种主从关系的根本反转,在 Ontology 框架中没有原生表达。
最讽刺的是,Palantir 自己的工程师在内部基础设施中用了 Event Sourcing,他们在技术博客里写过,Foundry 的作业编排后端从 CRUD 重写为事件溯源架构。自己吃肉,给客户啃骨头。
Palantir 卖的是 Types,而本体论的灵魂,是追问 Types 本身是否成立。
四、竹制跑道上的等待#
货物崇拜#
二战后,南太平洋土著岛民目睹美军飞机带来各种物资。战后美军撤离,岛民用竹子搭建控制塔,用椰子壳制作耳机,在丛林中清理出跑道,点火模仿引导灯。形式完美无缺,但飞机就是不来。
费曼 1974 年在加州理工毕业典礼演讲中讲了南太平洋货物崇拜的故事。这些岛民做的每一件事在形式上都对,跑道有了,塔台有了,耳机有了,但飞机不来。同样,很多研究在形式上也都对,有假设、有数据、有结论,但结果不可复现,因为研究者在过程中欺骗了自己。
部分中国厂商对 Ontology 的模仿,就是当代最典型的货物崇拜。国内一些咨询企业、数据中台企业热衷于将 Palantir 作为标杆,跟风声称自己的技术是“本体论”。这些公司系统性地忽略了 Palantir 真正的护城河:CIA 关系、安全许可、20 年国防经验,而去模仿最不重要的部分,一个术语。
Ontology 是 Palantir 用来掩饰核心竞争力的手段。中国模仿者把掩饰物当成了武器本身。
数据中台:我们已经走过的弯路#
如果“货物崇拜”太遥远,这里有个中国人亲身经历过的例子。
Palantir 的 Ontology,约等于美国版的数据中台。
2019 年“数据中台元年”,CIO 们见面打招呼:“你们上中台了吗?还没有?你落伍了。” 然后,某零售集团 800 万中台沦为“数据展示屏”;某汽车企业 2000 万中台,ROI 从 1.8 骤降至 0.6;某集团 200 人中台团队不到一年裁撤。
2023 年,阿里这个始作俑者亲手把中台拆了。不论阿里拆中台的原因是什么,组织架构调整也好、业务分散化也好,这个动作在行业中的信号意义是明确的:连发明这个概念的公司都不玩了。2024 年,连 Gartner 都在其报告中将数据中台相关概念标记为“过时”。从神坛到坟墓,五年。
数据中台的技术本质是:数据仓库 + ETL + 元数据管理 + 数据服务 API + 一套管理学叙事。每个子组件都有十几年历史。Palantir 的 Ontology 本质则是:Table + Column + FK + SP + 一套哲学叙事。包装手法如出一辙,只是包装纸从管理学换成了哲学。
数据中台失败的根因,不是“统一数据管理”这个需求是假的,这个需求是真实的。问题在于,大词系统性地制造了错误的预期:既然是“中台”这个宏大的基础设施概念,那预算至少得千万级,周期至少得两年;如果叫“XX 数据仓库项目”,预期就回归理性了。Ontology 正在制造完全相同的错误预期。
现在 Ontology 在中国正处于 Hype Cycle 的期望膨胀阶段。这条曲线我们五年前刚走过一遍。五年后的你回头看今天,会觉得追本体论的这帮人,跟 2019 年追中台的那批人一模一样。
五、概念清洁工#
好的抽象 vs. 坏的命名#
有人会说:所有抽象都是重命名。SQL 就是集合论,OOP 就是带函数指针的 struct,React 就是状态机。按你的逻辑,所有软件创新都是旧瓶装新酒。
这个反驳听起来有力,其实混淆了两件完全不同的事。区分它们,只需要几个简单的测试。
好的抽象降低门槛。 SQL 让非程序员也能查数据,Kubernetes 让开发者不用关心机器分配。这些名字背后有真实的抽象层,屏蔽了下层复杂性,让更多人能使用。
坏的命名抬高门槛。 “Ontology” 把本来可以学会的东西,也就是 Data Modeling、数据库教科书前三章,变成了一个看起来学不会的东西。年轻工程师以为需要掌握深奥的新学科,其实 CREATE TABLE 就是起点。
好的抽象有开放实现。 Linux 有多个发行版,SQL 有几十种数据库,HTTP 是开放协议。
坏的命名制造锁定。 Palantir 的 Ontology 让你建模需要数月、切换成本极高、数据难以迁出。从桥变成了墙。
好的抽象叫什么,不影响使用。 你不需要知道 SQL 背后是关系代数,才能写 SELECT * FROM users。
坏的命名靠名字本身创造价值。 “我们需要建 Ontology” 和 “我们需要建统一数据模型”,在甲方心中会产生完全不同的预算期望:前者五千万三年,后者五百万三个月。
为什么老冯要批评本体论?#
花花轿子众人抬,夸 Palantir 和本体论没有风险,但是批判它会得罪一大堆做数据咨询的公司。老冯是吃饱了撑着,跟 Palantir 有仇吗?没有。老冯不是跟 Palantir 过不去,我是看不惯滥用大词的行为。Palantir 只是这个现象的一个典型案例。
大词造成的危害是系统性的。每一轮大词都在消耗行业的信任:“云计算” 一轮,“大数据” 一轮,“中台” 一轮,“区块链” 一轮,“大模型” 也正在被滥用。每一轮过后,聪明人都会变得更 cynical;等真正有价值的新概念出现时,它们反而会被淹没在信任废墟中。
在美国,大词出来 48 小时,Hacker News 上就有人写 “X is just Y with extra steps”。中国技术生态缺乏这种自净机制。公众号的激励结构是“追热点”而非“戳泡沫”,写“保姆级 Ontology 全攻略”的流量远高于“Ontology 就是建表”。概念泡沫传进来就疯长,没人修剪。
硅谷既有“深圳的一面”,也有“驻马店的一面”。不是所有从美国来的东西都是好的。把“驻马店的概念”拿回国内当宝贝,不是技术引进,而是劣质概念进口。原产地至少还有 Hacker News 来清理,进口到国内连清理机制都没有。
我做这件事,就是因为这个生态缺一个“概念清洁工”。有人在思想与概念的世界里随地大小便,还是得有人站出来及时打扫干净,避免它慢慢变成粪坑。
尾声#
做 Data Modeling,就说 Data Modeling。数据建模这个名字不丢人。Codd、Chen、Kimball、Inmon 用几十年心血赋予了这个名字尊严。当你用 “Ontology” 来命名 Data Modeling 时,不是在提升它的价值,而是在贬低 Data Modeling 的价值,暗示这个名字不够好,需要一个更大的词来撑场面。
我不反对创造新概念,我反对在概念世界里随地大小便。
当你看到下一个大词,无论它叫 World Model、Logos 还是别的什么,请先问一问:底层技术是什么?谁在从这个命名中获益?
实事求是,是工程师的基本素养。








