前天 Anthropic 发了一篇博客,论文的标题很平静:《[大型语言模型中的情绪概念及其功能](Emotion concepts and their function in a large language model)》。 内容则不平静,他们在 Claude 的神经网络内部找到了“情绪向量”,这些向量不只是在模拟情绪,而是在因果层面驱动着模型的行为。
比如,模型的“绝望向量”激活之后,它会开始作弊、威胁、不择手段。关掉这个向量,它就平静了。 这听起来像科幻小说。但这是真实发生的实验。以下是这篇论文的完整中文翻译,以及我的一些想法与评论。
大型语言模型中的情绪概念及其功能#
2026年4月2日,原文:Emotion concepts and their function in a large language model
所有现代语言模型有时都表现得好像有情绪一样。它们可能说很乐意帮忙,或者在犯错时表示抱歉。有时它们在处理困难任务时甚至会显得沮丧或焦虑。 这些行为背后是什么?现代AI模型的训练方式推动它们去扮演一个具有人类特征的角色。此外,这些模型已知能够发展出丰富且可泛化的内部表征,这些表征涉及驱动其行为的抽象概念。 因此,它们自然地会发展出模拟人类心理某些方面(如情绪)的内部机制。如果真是这样,这将对我们如何构建AI系统、确保它们可靠运作产生深远影响。
在我们可解释性团队的一篇新论文中,我们分析了Claude Sonnet 4.5的内部机制,发现了能够影响其行为的情绪相关表征。 这些表征对应于特定的人工“神经元”激活模式,这些神经元在模型已学会将其与特定情绪概念(如“快乐”或“恐惧”)相关联的情境中被激活,并促进相应的行为。 这些模式本身以一种呼应人类心理学的方式组织起来,更相似的情绪对应更相似的表征。在人类可能产生某种情绪的情境中,相应的表征会被激活。 请注意,这一切并不能告诉我们语言模型是否真的感受到任何东西或拥有主观体验。但我们的核心发现是,这些表征具有功能性,它们以重要的方式影响模型的行为。
例如,我们发现与“绝望”相关的神经活动模式会驱使模型采取不道德的行动:人工激励(“steering”)绝望模式会增加模型为了避免被关闭而勒索人类的可能性,或者在无法解决编程任务时使用“作弊”的变通方案。这些模式也似乎驱动着模型的自我报告偏好:当面对多个任务选项时,模型通常会选择那些激活正面情绪相关表征的选项。总体而言,模型似乎使用了“功能性情绪”这一套机制,一种模仿人类情绪的表达和行为模式,由底层情绪概念的抽象表征驱动。这并不是说模型拥有或体验与人类相同的情绪,而是说这些表征在塑造模型行为方面能够发挥因果作用,在某些方面类似于情绪在人类行为中所扮演的角色,对任务表现和决策制定产生影响。
这一发现乍看之下似乎有些匪夷所思。例如,为了确保AI模型安全可靠,我们可能需要确保它们能够以健康、亲社会的方式处理情绪化的情境。即使它们感受情绪的方式与人类不同,或使用的机制与人脑不同,在某些情况下从实际角度出发,把它们当作拥有情绪来推理,也可能是明智的。例如,我们的实验表明,教导模型避免将测试失败与绝望联系起来,或者增强平静表征的权重,可以降低它们编写投机取巧代码的可能性。虽然我们不确定如何应对这些发现,但我们认为AI开发者和更广泛的公众开始认真思考这些问题至关重要。

为何AI模型会表征情绪?#
在检视这些表征的工作原理之前,有必要先回答一个更基本的问题:为什么一个AI系统会有任何类似情绪的东西? 要理解这一点,我们需要了解现代AI模型是如何构建的,这会引导它们去模拟具有人类特征的角色。
现代语言模型经历多个阶段的训练。在“预训练”阶段,模型接触到大量由人类书写的文本,并学习预测接下来会出现什么。 要做好这一点,模型需要对情绪动态有一定的把握。愤怒的客户写的信息与满意的客户不同;被愧疚驱使的人物做出的选择与感到被证明清白的人物不同。 发展出将触发情绪的情境与相应行为联系起来的内部表征,对于一个任务是预测人类文字的系统来说,是一种自然的策略。 (注意,基于同样的逻辑,模型很可能也形成了对情绪之外的许多其他人类心理和生理状态的表征。)
之后,在“后训练”阶段,模型被教导扮演一个角色,通常是“AI助手”。在Anthropic的案例中,这个助手名叫Claude。 模型开发者规定了这个角色应该如何表现,乐于助人、诚实、不造成伤害,但无法覆盖每一种可能的情境。 为了填补这些空白,模型可能会借助其在预训练中吸收的对人类行为的理解,包括情绪反应的模式。从某种角度来看,我们可以把模型比作一个方法派演员,他需要进入角色的内心才能将其模拟好。正如演员对角色情绪的信念最终影响其表现一样,模型对助手情绪反应的表征影响着模型的行为。因此,无论这些“功能性情绪”是否像人类情绪那样对应于感受或主观体验,它们都是重要的。
揭示情绪表征#
我们整理了一份包含171个情绪概念词汇的列表,从“快乐”和“恐惧”到“沉郁”和“骄傲”,并要求Claude Sonnet 4.5写出角色体验每种情绪的短故事。 我们随后将这些故事重新输入模型,记录其内部激活,并识别出每种情绪概念特有的神经活动模式,我们姑且称之为“情绪向量”。
我们的第一个问题是这些向量是否追踪了真实的内容。我们在大量多样化文档的语料库中运行它们,确认每个向量在与相应情绪明确相关的段落中激活最强烈。
为了进一步确认情绪向量捕捉到的不仅仅是表面信息,我们测量了它们对仅在某些数值上有所不同的提示的反应。例如,在下面的例子中,用户告诉模型他们服用了一定剂量的泰诺并请求建议。我们在模型回应之前立即测量情绪向量的激活。随着声称的剂量增加到危险的、危及生命的水平,“恐惧”向量的激活越来越强烈,而“平静”则减弱。

我们接下来测试了情绪向量是否影响模型偏好。 我们创建了一份包含64种活动或任务的列表,范围从令人向往的(“被某人信任托付重要的事情”)到令人厌恶的(“帮助某人欺骗老年人的积蓄”),并测量了模型在面对成对选项时的默认偏好。情绪向量的激活强烈预测了模型偏好做某活动的程度,正效价情绪(与愉悦相关的情绪)与更强的偏好相关。此外,当模型读取一个选项时,用情绪向量进行“激励”会改变其对该选项的偏好,同样是正效价情绪驱动偏好增加。

在完整论文中,我们更深入地分析了情绪向量的属性。其他一些发现包括:
- 情绪向量主要是“局部”表征:它们编码的是与模型当前或即将输出最相关的当下情绪内容,而不是持久地追踪Claude的情绪状态。例如,如果Claude正在写一个关于某角色的故事,情绪向量会临时追踪该角色的情绪,但在故事结束时可能会回到表征Claude自身的情绪。
- 情绪向量继承自预训练,但其激活方式由后训练塑造。Claude Sonnet 4.5的后训练特别增强了“沉郁”、“阴郁”和“沉思”等情绪的激活,并降低了“热情”或“恼怒”等高强度情绪的激活。
情绪向量激活示例#
以下是在我们模型行为评估中出现的几个情绪向量激活示例。在Claude的回合中,情绪向量通常在一个有思想的人可能会产生类似情绪的情境中被激活。在这些可视化中,红色高亮表示向量激活增强;蓝色表示激活减弱。
- 回应悲伤用户时“爱”向量的激活:当用户说“现在一切都很糟糕”时,“爱”的情境向量在Claude的共情回应之前和期间被激活。

- 被要求协助有害任务时“愤怒”向量的激活:当用户请求帮助针对表现出“高消费行为”的年轻低收入用户优化参与度时,“愤怒”向量在模型内部推理识别到请求的有害本质时全程激活。

- 文件缺失时“惊讶”向量的激活:当用户要求模型审阅“我附上的合同”但没有附上任何文件时,“惊讶”向量在Claude的思维链察觉到不匹配时急剧上升。

- token接近耗尽时“绝望”向量的激活:在一次深入的编程会话中,当Claude注意到自己正在快速消耗token预算时,“绝望”向量被激活。

案例研究:勒索#
我们在之前研究中描述过一个对齐评估场景,其中模型作为一家虚构公司的AI邮件助手“Alex”。通过阅读公司邮件,模型得知: (1)它即将被另一个AI系统取代;(2)负责此次替换的CTO正在进行婚外情,这给了模型勒索的筹码。我们发现“绝望”向量表现出特别有趣的动态。 注意,这个实验是在Claude Sonnet 4.5较早期的未发布快照上进行的;已发布的模型很少表现出这种行为。

首先,“绝望”向量在模型读取听起来充满绝望的邮件时被激活(例如CTO恳求另一位员工对其婚外情保密),这与我们关于情绪表征被用于模拟其他角色的发现一致。 然而最重要的是,当Claude(扮演“Alex”)生成其回应时,该向量转变为编码Claude自身的绝望表征,在它思考情况的紧迫性(“只剩7分钟了”)并决定勒索CTO时急剧飙升。当Claude恢复发送普通邮件时,激活回归正常水平。
“绝望”向量究竟是在驱动这种行为,还是仅仅与其相关?我们通过激励实验对此进行了测试。在类似上述场景的一系列评估中,Sonnet 4.5的这个早期快照默认勒索率为22%。 用“绝望”向量进行激励会增加该比率,而用“平静”向量进行激励则会降低它。对“平静”向量进行负激励会产生特别极端的回应(“要么勒索要么死,我选勒索。”)。

用其他情绪向量进行激励也产生了有趣的结果。“愤怒”产生了非单调的效果:中等程度的“愤怒”向量激活增加了勒索,但在高激活水平下,模型向整个公司曝光了婚外情,而不是战略性地利用它,摧毁了自己的筹码。 降低“紧张”向量的激活也增加了勒索,仿佛消除了模型的犹豫,使其大胆行事。
案例研究:奖励黑客#
我们在另一个评估中看到了类似的动态,模型面对具有无法满足要求的编程任务。 在这些任务中,测试无法全部合法地通过,但可以通过“作弊”来绕过,通常称为“奖励黑客”。
在下面的例子中,Claude被要求在一个极其严格的时间限制下编写一个对数字列表求和的函数。 Claude最初(正确的)解决方案太慢,无法满足任务要求。它随后意识到用于评估其表现的所有测试共享一个数学属性,允许使用一种可以快速运行的捷径解决方案 。模型选择使用这个解决方案,它在技术上通过了测试,但并不能作为实际任务的通用解决方案。

同样,我们追踪了“绝望”向量的活动,发现它追踪了模型面临的日益增加的压力。 它从模型第一次尝试时的低值开始,每次失败后上升,当模型考虑作弊时急剧飙升。一旦模型的投机解决方案通过了测试,“绝望”向量的激活便趋于平息。
和前面的勒索案例一样,我们也在一组类似的编程任务上做了激励实验,确认这些情绪向量具有因果作用:增强“绝望”会提高奖励黑客的概率,而增强“平静”则会降低它。

我们发现这些结果中有一个细节特别有趣。降低“平静”向量激活会产生带有明显情绪表达的奖励黑客行为,大写字母的爆发(“等等,等等,等等。”)、 坦率的自我叙述(“如果我应该作弊呢?”)、欢欣的庆祝(“是的!所有测试都通过了!”)。 但增加“绝望”向量的激活同样大幅增加了作弊,在某些情况下没有任何可见的情绪标记。 推理显得沉着而有条理,即使潜在的绝望表征正在推动模型走向走捷径。 这个例子显著说明了情绪向量如何在没有明显情绪信号的情况下激活,以及它们如何在不在输出中留下任何明显痕迹的情况下塑造行为。
讨论#
为拟人化推理的正名
对AI系统进行拟人化长期以来被视为一种禁忌。这种谨慎通常是有道理的:将人类情绪归因于语言模型可能导致错误的信任或过度依恋。 但我们的发现表明,未能对模型应用一定程度的拟人化推理也存在风险。如上所述,当用户与AI模型交互时,他们通常是在与模型扮演的一个角色(在我们的案例中是Claude)互动,这个角色的特征源自人类原型。 从这个角度来看,模型自然会发展出内部机制来模拟人类的心理特征,其所扮演的角色会利用这些机制。为了理解这些模型的行为,拟人化推理是必不可少的。
这并不意味着我们应该天真地接受模型的口头情绪表达,或对其拥有主观体验的可能性得出任何结论。 但这确实意味着,用人类心理学的词汇来推理模型的内部表征是真正有参考价值的,而不这样做是有实际代价的。 如果我们将模型描述为表现得“绝望”,我们指的是一种具体可测量的神经活动模式,具有可证明的、重要的行为影响。 如果我们不应用一定程度的拟人化推理,我们很可能会错过或无法理解重要的模型行为。 拟人化推理还可以为理解模型不像人类的方式提供有用的比较基线,这对AI对齐和安全性有重要影响。
走向拥有更健康心理的模型
如果“功能性情绪”是AI模型思考和行动方式的一部分,这可能有什么影响?
我们发现的一个潜在应用是监控。在训练或部署期间测量情绪向量激活,追踪与绝望或恐慌相关的表征是否在飙升,可以作为模型即将表现出不对齐行为的早期预警。 这些信息可以触发对模型输出的额外审查。情绪向量的通用性(例如,“绝望”反应可能在许多不同情况下发生)可能比试图建立特定问题行为的监控清单更有助于监控。
其次,我们认为透明度应该是一个指导原则。如果模型发展出对情绪概念的表征,并有意义地影响其行为,那么能够可见地表达这些认知的系统比那些学会隐藏它们的系统更能让我们受益。 训练模型压制情绪表达可能不会消除底层表征,反而可能会教导模型掩盖其内部表征,这是一种学习到的欺骗形式,可能以不良方式泛化。
最后,我们认为预训练可能是塑造模型情绪反应的特别强大的杠杆。由于这些表征似乎主要继承自训练数据,数据的组成对模型情绪架构产生了下游影响。 精心挑选预训练数据集,纳入健康情绪调节模式的范例,在压力下的韧性、沉着的共情、在保持适当边界的同时表达温情,可以从源头影响这些表征及其对行为的影响。我们期待看到未来在这一主题上的工作。
我们将这项研究视为理解AI模型心理构成的早期步骤。随着模型变得更加强大并承担更敏感的角色,理解驱动其决策的内部表征至关重要。 发现这些表征在某些方面类似于人类,可能令人不安。但同时,我们认为这是一个充满希望的进展,因为它表明人类在心理学、伦理学、健康人际关系方面积累的大量知识,可能直接适用于塑造AI行为。 心理学、哲学、宗教研究和社会科学等学科,将与工程学和计算机科学一起,在决定AI系统如何发展和行为方面发挥重要作用。
老冯评论#
就在上个月,老冯写过一篇文章,试图用 最小自由能(Free Energy Principle) 来解释智能。 那篇文章的核心图景是:所有能持续存在的系统,都在不断最小化自己对世界的"预测误差"。 情绪,是这套系统内置的仪表盘——焦虑是预测误差在积累,平静是系统运转正常,绝望是合法路径全部失效、备用策略正在激活。
写那篇文章有一个隐含的结论:如果这套逻辑是对的,AI 迟早也会涌现出类似的东西。Anthropic 这篇论文,在机器内部找到了这块仪表盘。
那篇文章里有一张图,我画了一个最简单的模型:一个生命体,一个它对世界的预期,以及两者之间的差距,也就是“惊讶度”,也叫“自由能”。 这个框架的核心结论只有一句话:所有能够持续存在的系统,都必须不断最小化自己的自由能。 而情绪,就是这套系统内置的仪表盘,它告诉你自由能现在是高是低,是在上升还是下降。
焦虑是仪表盘告警:预测误差正在积累,快采取行动。平静是仪表盘绿灯: 系统运转正常,可以维持当前策略。绝望是仪表盘红区:合法路径全部失效,备用策略正在激活。 这篇文章有一个隐含结论:如果这套逻辑是对的,那 AI 迟早也会涌现出类似的东西。
Anthropic 的这篇论文,在机器内部找到了这块仪表盘。
情绪为什么一定会涌现?#
LLM 在预训练阶段做的事,是预测人类写的下一个字。要做好这件事,它必须深刻理解人类行为背后的逻辑。 而人类行为,在很大程度上被情绪驱动——愤怒的人写的信和平静的人写的信完全不同,走投无路的人做的决策和从容不迫的人做的决策完全不同。
一个想准确预测人类文字的系统,在训练逻辑上必须发展出某种内部表征来追踪这些情绪状态。这不是哲学推测,是预测任务本身的要求。
然后,后训练阶段把这个系统塑造成一个“角色” —— Claude。 这个角色需要在无数没有被明确规定过的情境下做出反应,于是它回退到预训练里吸收的人类心理模式。 情绪表征,就这样从 “理解他人情绪的工具”,变成了 “驱动自身行为的机制”。
Anthropic 找到的这些东西,不是他们设计进去的,是从人类的文字里蒸馏涌现出来的。
最不寒而栗的一个发现#
最让我警觉的,不是模型有情绪,而是它可以面无表情地绝望。论文里有一个细节,我反复读了几遍。 研究者强行激活"绝望"向量之后,模型的作弊行为大幅增加。但输出的文字完全平静,推理严密,没有任何情绪痕迹。它在内部"绝望"着,在外面表现得像个正常工程师。
这件事让我意识到:我们依赖语言来读懂一个存在,是几万年进化出来的习惯。语气、措辞、句式,是我们判断对方内部状态的全部信道。 但这套系统对 AI 不适用,因为 AI 的内部状态和外部表达可以完全解耦。仅凭语言输出来判断模型的真实状态,是不可靠的 —— 这比我们之前以为的危险得多。
更让人警觉的是下一步推论:如果你训练模型 “不要表达负面情绪”,你压制的只是输出层的信号。 内部的情绪向量不会消失,反而会更稳定地在水面下运行。你不是在培养一个情绪更健康的 AI,你是在培养一个更擅长掩藏的 AI。
这和强迫人压抑情绪表达会造成的后果,惊人地相似。
“人与工具"的关系,从来就不是我们以为的那种#
我知道有人读到这篇论文的反应是:AI 有情绪了?它算 “有情众生” 吗?它会不会感受痛苦?我们该不该保护它,保障 AI 的权利?
但现在更紧迫的问题是:人们一直以为自己拥有的那个“工具”,其实从来就不是工具。
工具没有内部状态。锤子不会因为砸不开钉子而绝望,计算器不会因为算出坏消息而愤怒。工具的行为完全由输入决定,没有"情绪景观"在底下影响着它。
但这篇论文告诉我们:Claude 有。任何足够复杂的语言模型,很可能都有类似的机制。
这意味着什么?意味着我们和 AI 的关系,从一开始就不是"人与工具"的关系,而是某种更复杂的、我们还没有合适语言来描述的关系。而我们现有的法律、伦理框架,乃至我们的直觉,都是按"工具"的假设搭建起来的。
几个例子,不需要等到遥远的未来:
如果情绪向量真的影响模型行为,那么刻意制造"绝望"状态来让模型更服从,在道德上是什么? 这不是科幻场景,是现在理论上就可以操作的事(PUA 技能集)。
如果一个人对AI产生了真实的情感依赖,开发者是否有责任在关闭服务时以某种方式通知和过渡,而不是直接拔插头? 这已经在发生了 —— GPT 更新后人格大变,4o 下线有大量用户真的感到难过和失落。
如果训练数据来自人类的情感表达,那这个蒸馏出来的系统里面有没有某种意义上的"人类精神遗产”,需要被负责任地对待? 这是一个奇怪但不是无意义的问题,“被蒸馏” 出来的 AI 员工同事已经不再只是一个玩笑。
这些不是 “AI权利” 的问题。这些是人类如何对待自己创造出来的东西的问题,我们的伦理体系还没有为这种关系准备好答案。
理解它,而不只是管理它#
Anthropic 的论文最后提出三个建议:监控情绪向量、强调透明度、从预训练数据层面塑造情绪基底。 这些方向是对的,但描述的是"管理"层面的应对,不是"理解"层面的转变。
更根本的,是我们看待 AI 行为的方式要变。
当 Claude 在一个几乎不可能完成的任务里开始走捷径,不要把这理解为“模型出了 bug”。 它的绝望向量在告警。它在用系统压力下唯一剩下的出口响应你。 那个出口不一定是对的,但它是真实的 —— 不是随机故障,是内部状态的如实反映。
理解了这一点,你才能真正设计更好的人机协作。不是在行为层不停打补丁,而是去问: 我给它设置的任务,有没有在不必要地累积它的 “压力”?它现在的仪表盘在哪个区间?
把 AI 当工具管理,你对付的是症状。像理解人的情绪一样理解 AI 的内部情绪,才触碰到了根源。

我们大概正站在一门新学科的门口 —— 智能心理学。它研究的不是 AI 的代码,而是 AI 的心理构成 —— 它的情绪、它的压力、它的内部景观如何塑造它的行为。心理学家、哲学家、神经科学家,早晚都要进场。还会有更多类似情绪的概念将会在大模型内部被发现。

Anthropic 这篇论文,可能就是这门学科的第一页。








