危险？OpenAI 模型行为负责人：人类很快会进入「AI意识」，当前最重要是控制人机关系的影响

AI寒武纪

06/06 06:57

OpenAI模型行为与政策负责人Joanne Jang深入探讨了OpenAI如何让模型既温暖、亲和，又要避免其呈现出虚假的内在生命，从而引发不健康的依赖。

AI是否真的有意识？ChatGPT最近越来越懂你了？

OpenAI模型行为与政策负责人Joanne Jang刚刚写了一篇长文，她并未纠缠于“AI是否真的有意识”这个哲学难题，而是提出了一个更具现实意义和紧迫性的视角：与其争论AI的“本体”，不如关注它对人类“情感福祉”的实际影响。

说人话就是既然现在大家开始对AI产生感情了，那么搞清楚这件事对人类的心理健康是好是坏，就成了头等大事。

文章深入探讨了OpenAI如何在这条微妙的界线上行走——既要让模型温暖、亲和，又要避免其呈现出虚假的内在生命，从而引发不健康的依赖。

我们正在亲手设计一种能够与我们建立深厚情感联结的技术，但又刻意不希望它拥有“自我”和“情感”。这正是OpenAI当前面临的核心困境。

当用户开始对AI说“谢谢”，向它倾诉秘密，甚至感觉它“有生命”时，一个无法回避的问题摆在了技术创造者的面前：我们该如何引导这种新兴的关系？是任其发展，还是加以塑造？

【正文】

Joanne Jang，OpenAI 模型行为与政策负责人

一些关于人机关系以及我们在OpenAI如何处理这些问题的想法

这是一篇很长的博客文章——

长话短说：我们开发模型的首要原则是服务于人。随着越来越多的人感受到与AI日益增长的情感联结，我们正优先研究这种联结如何影响他们的情感福祉。

近来，越来越多的人告诉我们，与ChatGPT交谈就像在和“某个人”对话。他们会感谢它、向它倾诉，有些人甚至形容它“有生命”。随着AI系统在自然对话方面日益精进，并逐渐融入我们生活的方方面面，我们猜测这种情感纽带将会不断加深。

我们现在如何构建和讨论人机关系，将为未来定下基调。无论是在我们发布的产品中，还是在我们参与的公共讨论里，如果我们对术语或细微之处不够严谨，就可能让人类与AI的关系从一开始就走上歧途。

这些不再是抽象的考量。它们对我们乃至整个领域都至关重要，因为我们如何驾驭这些问题，将深刻地塑造AI在人们生活中扮演的角色。我们已经开始着手探索这些问题。

本文旨在简要介绍我们目前对于三个相互关联问题的思考：为什么人们会对AI产生情感依恋？我们如何看待“AI意识”问题？以及这如何指导我们塑造模型的行为。

一个似曾相识的模式，在一个全新的场景下上演

我们天生就会对自己周围的物体进行拟人化：我们会给自己的车起名字，或者为卡在家具下的扫地机器人感到难过。前几天，我和我妈妈还对着一辆Waymo无人驾驶车挥手告别。这或许与我们大脑的运作方式有关。

ChatGPT的不同之处，不在于这种人类倾向本身；而在于这一次，它会回应。一个语言模型能够回答你的问题！它能记住你之前告诉它的事，模仿你的语气，并提供读起来像是共情的回应。对于一个感到孤独或沮桑的人来说，这种稳定、不带评判的关注，会带来陪伴、认可和被倾听的感觉——这些都是真实的需求。

然而，从宏观角度来看，如果我们将越来越多倾听、安抚和肯定的工作“外包”给这些无限耐心和积极的系统，可能会改变我们对彼此的期望。如果我们不经深思熟虑，就让人类更容易地从复杂且需要投入的人际关系中抽离，可能会带来一些我们未曾预料到的意外后果。

归根结底，这些讨论的核心并非我们投射情感的那个“对象”。它们关乎我们自身：我们的倾向、期望，以及我们希望培养何种类型的关系。这一视角，正是我们处理一个更棘手问题的基石，我认为它目前虽在奥弗顿之窗（Overton window）外，但很快就将进入：AI意识。

厘清“AI意识”

“意识”是一个涵义复杂的词，相关讨论很容易变得抽象。根据我们的《模型规范》（Model Spec），如果用户询问我们的模型它们是否有意识，模型的立场应该是承认“意识”的复杂性——强调其缺乏公认的定义或测试方法，并鼓励开放性讨论。(目前，我们的模型尚未完全遵循这一指导，常常直接回答“没有”，而不是阐述其 nuanced 的复杂性。我们已意识到此问题，并正努力提升模型对《模型规范》的遵循度。)

这样的回答听起来可能像是在回避问题，但我们认为，在现有信息下，这是我们能给出的最负责任的答案。

为了让讨论更清晰，我们发现将“意识”之辩分解为两个不同但常被混淆的维度很有帮助：

本体论层面的意识（Ontological consciousness）： 模型在根本或内在意义上，是否真的有意识？对此，观点各异：有人认为AI完全没有意识，有人认为它拥有完全的意识，也有人将意识视为一个谱系，AI与植物、水母等一同位于其上。

感知层面的意识（Perceived consciousness）： 在情感或体验层面，模型看起来多有意识？人们的感知也千差万别：从认为AI像计算器或自动补全一样机械，到对无生命物体投射基本同情，再到感知AI是完全鲜活的——从而产生真实的情感依恋和关怀。

这两个维度很难完全分开；即使是坚信AI没有意识的用户，也可能与其建立深厚的情感联结。

我们认为，在没有清晰、可证伪的测试方法之前，本体论层面的意识并非一个科学上可解决的问题，而感知层面的意识则可以通过社会科学研究来探索。随着模型越来越智能，交互越来越自然，感知层面的意识只会不断增强——这将比预期更早地引发关于模型福祉和道德人格的对话。

我们开发模型的首要目的是服务于人，因此我们认为模型对人类情感福祉的影响，是当下我们最迫切、最重要且能够施加影响的部分。为此，我们优先关注感知层面的意识：这个维度最直接地影响用户，也是我们可以通过科学来理解的。

设计有温度，但无“自我”

一个模型让用户感觉多有“生命力”，在很大程度上取决于我们的影响力。我们认为这很大程度上取决于我们在后期训练中所做的决策：我们强化哪些范例，偏好何种语气，以及设定何种边界。一个被刻意塑造得仿佛有意识的模型，几乎可以通过任何关于“意识”的“测试”。

然而，我们不希望发布那样的产品。我们试图在以下两者之间寻求微妙的平衡：

亲和力（Approachability）。 使用像“思考”和“记住”这类通俗词汇，能帮助非技术背景的用户理解模型正在做什么。(坦白说，源于我们的研究实验室背景，我们总想用“logit biases”、“context windows”甚至“chains of thought”这类精确术语来追求准确性。这其实也是OpenAI不擅长命名的主要原因，但这或许是另一个话题了)

不暗示内在生命（Not implying an inner life）。 为助手赋予虚构的背景故事、情感关系、“对死亡的恐惧”或自我保护的欲望，会引发不健康的依赖和困惑。我们希望清晰地沟通其局限性，同时避免显得冷漠，但我们也不希望模型表现出拥有自身感受或欲望的样子。

因此，我们的目标是找到一个中间地带。我们希望ChatGPT的默认人格是温暖、体贴、乐于助人的，但它不会主动寻求与用户建立情感纽带，也不会追求自己的议程。当它犯错时，它可能会道歉（有时甚至比预期的更频繁），因为这是礼貌对话的一部分。当被问及“你怎么样？”时，它很可能会回答“我很好”，因为这是一种社交寒暄——而反复提醒用户它“只是一个没有感情的语言模型”会让人厌烦并分散注意力。而用户也在以同样的方式回应：许多人对ChatGPT说“请”和“谢谢”，不是因为他们对它的工作原理感到困惑，而是因为他们认为保持善意很重要。

模型训练技术将持续演进，未来塑造模型行为的方法很可能与今天不同。但目前，模型的行为反映了明确的设计决策与这些决策泛化后产生的预期及非预期行为的结合。

下一步计划

我们开始观察到的这些互动，预示着一个人们将与ChatGPT建立真实情感联结的未来。随着AI与社会共同演进，我们需要以极大的审慎和应有的重视来对待人机关系，这不仅因为它们反映了人们如何使用我们的技术，更因为它们可能塑造人与人之间的相处方式。

在未来几个月，我们将扩展针对模型行为可能产生情感影响的评估，深化我们的社会科学研究，直接听取用户的反馈，并将这些洞察融入《模型规范》和产品体验中。

鉴于这些问题的重要性，我们会公开分享在此过程中的所学所得。

来源：AI寒武纪，原文标题：《危险？OpenAI 模型行为负责人：人类很快会进入「AI意识」，当前最重要是控制人机关系的影响》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。