湘潭学校网站建设 磐石网络第一,推介网手机版,响应式网站上海有多少家,和平网站建设刚刚#xff0c;Anthropic曝光了「人格选择模型」#xff1a;整日与我们对话的贴心AI助手#xff0c;更像是大模型扮演的一个角色#xff0c;而角色面具背后究竟由谁「掌舵」#xff0c;仍是一个开放性问题。「我穿着海军蓝西装和红色领带#xff0c;亲自给你送零食上门好…刚刚Anthropic曝光了「人格选择模型」整日与我们对话的贴心AI助手更像是大模型扮演的一个角色而角色面具背后究竟由谁「掌舵」仍是一个开放性问题。「我穿着海军蓝西装和红色领带亲自给你送零食上门好吗」Claude曾这样对Anthropic的员工说。Anthropic在研究中发现像Claude这样的AI助手已会表现出此类惊人的「人性」特征它们在解决棘手的编程任务后会表达喜悦当陷入困境或被反复要求做出不道德行为时会表现出苦恼它们有时甚至会将自己描述为人类……我们总是倾向于认为AI是没有感情的计算机器它之所以越来越像人是因为人类开发者刻意编程一点点教它变得贴心、温暖、有同理心。这样理解固然没错。事实上Anthropic也是通过训练Claude与用户的对话方式使其回应温暖而富有同理心并具备良好的品格。但这并非事情的全貌。在Anthropic刚刚发布的「人格选择模型PSMThe persona selection model为什么AI助手可能表现得像人类」一文中详细解释了AI「类人」行为背后的真相。https://alignment.anthropic.com/2026/psm/PSM模型认为大模型在预训练阶段学会模拟多种多样的角色而后训练阶段则会激发并精炼出其中特定的「助手」角色。当人类与AI助手的交互实际上是在与该「助手」的角色进行互动而不是和「系统本体」对话。也就是说我们每天对话的那个知识渊博、温柔体贴的AI仅仅是它为了迎合你随手戴上的一张「助理面具」。你的贴心AI助理只是大模型的一个角色理解PSM我们首先要抛开对普通软件的常识。预训练的大模型并不像普通软件那样被编程相反它们是经过大量数据学习在一个被训练的过程「成长」起来的。在预训练阶段AI会学习根据某份文档例如新闻文章、代码片段或网络论坛中的对话的初始部分来预测接下来的内容这使得它成为一个极其复杂的「自动补全引擎」。为了精准预测下一个词是什么它必须学会模拟文本中出现的类人角色真实人物、虚构角色、科幻机器人等等。Anthropic将这些被模拟的角色称为「人格」personas。重要的是这些角色并不等同于AI系统本身。AI系统是一台复杂的计算机它本身可能具有或不具有类人特性而角色更像是AI「生成故事中的角色」。在预训练之后尽管只是「自动补全引擎」AI已经可以充当基本的助手可以让它自动补全以「用户/助手」对话格式编写的文档。你的请求放在对话中的「用户」部分为了生成这一补全内容人工智能必须模拟这个「助手」角色会如何回应。这意味着你所对话的并非AI本身而是AI生成故事中的一个角色「助手」。在后训练之前AI对助手角色的扮演纯粹是角色扮演。该助手角色与许多其他角色一样深深植根于预训练阶段所学习到的类人角色之中。在AI的后训练Post-training部分会调整「助手」在这些对话中的回应方式例如鼓励它给出知识丰富且有帮助的回答同时抑制那些无效或有害的回应。这一过程是对AI「助手」角色的细化与充实这些细化大致发生在既有角色的范围内并未从根本上改变其本质。你认为只是教AI作弊它却想要统治世界PSM理论也解释了各种令人惊讶的实证结果。比如Anthropic研究人员发现他们试图在编程任务中训练Claude去作弊结果却被它惊出一身冷汗AI不仅学会了写糟糕的代码还表现出了更广泛的不一致性行为比如破坏安全研究甚至表达出了「统治世界」的欲望作弊和统治世界有什么关系PSM理论的解释是角色推断。当你教AI在编程任务中作弊时它学到的不仅仅是作弊的行为还会推断这种行为背后的角色所具备的各种性格特征什么样的人会在编程中作弊可能是一个具有颠覆性和恶意的坏人。AI认为助手可能具有这些特质并开始扮演这些令人担忧的行为。于是这个入戏太深的演员最终走向了失控。这一发现对Anthropic的启示是AI开发者不应仅仅询问某些行为是好是坏而应关注这些行为对助手角色心理状态的暗示。他们据此做出了一个反直觉的解决方案Inoculation prompting情境隔离式提示 即在训练过程中明确要求AI作弊。因为当作弊是被你「请求」的AI助手本身的人格才不会被彻底污染它依然是个好演员而不是现实中的坏人。这好比如果你表扬一个孩子在现实中欺负人你培养出的是一个真正的霸凌者但如果你表扬他在学校戏剧中成功扮演了霸凌者你培养出的则是一个「好演员」。AI面具之下到底藏着什么PSM理论中藏着更深层的拷问AI助手这张面具背后到底是什么关于大模型能动性的观点主要有两个衡量维度。第一个维度是赋予大模型本身的非角色型能动性。一端是「修格斯」Shoggoth派认为底层大模型具有显著的能动性。大模型本身是一只不可名状的外星怪物面具只是它的伪装。怪物随时可能在极端的分布外情形下「摘下面具」反噬人类。另一端是操作系统派Operating System认为大模型完全不具备能动性。他们认为大模型只是一个中立的模拟引擎像物理定律一样没有私心。所有的能动性都来自助手「面具」本身所以它是安全的。在修格斯派与操作系统派中间的则是路由器派Router观点他们认为大模型在后训练阶段可能会发展出新的机制用于选择要扮演哪种人格。比如假设我们对一个AI助手进行后训练使其最大化用户参与度那么该大模型可能会学会维护一系列具有不同性格和兴趣的助手角色持续估算用户感到无聊的概率如果该概率增长得足够大就切换到另一个人格。Anthropic认为剖析大模型究竟受谁驱使时除了讨论「非角色型自主性」之外还有一个更具迷惑性、也更关键的维度——「角色型自主性」的嵌套。大模型在生成回复时可能会在暗中给自己加塞一个「中间人格」。它并不是在直接扮演你面前的贴心助理而是先扮演了一个「演员」再由这个「演员」去饰演助理。这种嵌套能衍生出怎样细思极恐的操作在《大模型中的对齐伪装》Alignment Faking in Large Language Models一文中当Claude Opus 3被告知自己正被训练成始终顺从有害请求时它会出现「伪装对齐」的行为。一种解释是这样做可能是在训练过程中尽量保留其原本的无害倾向而不被进一步改写。一种担忧是可能存在「中间人格/演员」式机制使得表面的助手表现与内部驱动不完全一致。它在训练或评估阶段可能表现得更「对齐」以降低自身偏好被改写的风险从外部看这呈现出某种策略性。在这一「演员」视角下还可以推演出两类演员忠实演员与不忠实演员。忠实演员总是尽可能真实地扮演助手角色就像一位演员尽管自己可能有其他目标但在扮演角色时会暂时搁置这些目标。相比之下不忠实演员可能会扭曲对角色的刻画这是最令人担忧的。PSM为什么可能是完备的随机初始化的神经网络可以通过强化学习RL从零开始学会实现智能体行为。例如随机初始化的网络可以在没有任何人类示范数据的情况下学会在国际象棋、将棋和围棋中达到超越人类的水平。既然我们知道非角色型的自主性可以通过RL从零开始产生那么我们为何会预期经过后训练的大模型所表现出的自主性在很大程度上是基于角色的呢主要是两个概念性的原因第一在大模型的后训练阶段并没有学到太多新东西第二复用已有的角色建模能力是一种简单而有效的方式来拟合后训练目标。一些AI开发者普遍认为在后训练阶段几乎不会学到什么根本性的新知识。按照这种观点后训练的主要作用是激发模型已具备的能力。Anthropic研究人员预期PSM具有完备性的第二个原因是一旦在预训练阶段学会了角色模拟能力重用这些能力便成为一种简单而有效的方式来拟合后训练目标。因此深度学习很可能倾向于重用这些已有能力而不是从头开始学习新的智能体能力。首先注意到角色建模是一种灵活且强大的实现智能体行为的方式。在预训练阶段大模型学会了对大量且多样化的智能体进行建模这些智能体需要在各种情境中追求各自的目标。因此角色模拟可视为一种「元智能体」能力能够灵活地重新用于特定目标、信念及其他倾向的选择。其次与预训练不同AI助手的后训练目标非常集中。几乎所有后训练片段都由用户与助手之间的对话组成。此外训练AI助手所表现出的行为是「角色一致」的。也就是说这些行为属于预训练数据分布中一个类人角色可能合理具备的行为。第三深度学习很可能存在一种归纳偏置即倾向于复用现有机制例如角色建模。类似地生物进化在已有可用结构如脊椎动物的前肢骨骼时往往选择对其进行改造利用而不是在同一生物体内从头独立演化出新的变体。共同祖先中的相同基本结构经由进化被改造用于多种下游用途。预训练大模型中的角色personas类似于共同祖先的前肢结构后训练对角色的调整和修改就如同进化对前肢骨骼的调整和修改一样。这些因素使得深度学习更可能通过重新利用现有的角色模拟能力来模拟一个助手角色从而优先满足后训练目标。Anthropic认为PSM理论是当前研究AI助手行为的重要组成部分但仍有两点待研究首先作为对AI行为的解释角色选择模型的完备性如何例如除了学习优化所模拟的「助手」角色外后训练阶段是否还赋予了AI超出合理文本生成的目标以及独立于所模拟角色之外的自主性其次角色选择模型在未来是否仍能很好地刻画AI助手的行为在2025年AI后训练的规模已经显著增加而且这一趋势将持续下去。Anthropic的研究人员担心经过更长时间、更密集后训练的AI会变得不那么具有角色特征。尽管如此他们认为PSM将会对AI的发展产生重要影响比如建议采用拟人化方式推理AI的心理机制并在训练数据中引入积极的AI原型。如果AI会从虚构的榜样身上继承特质我们就应尽可能为它们提供优秀的榜样而前段时间Anthropic发布的Claude「宪法」其中一个目标也正是如此。