
编译 | 核子可乐、Tina
三年前的今天,山姆·奥特曼在凌晨发出几条推文,向世界介绍了一个名为 ChatGPT 的“早期演示”。他预言,人们很快将拥有能够交谈、答疑、提供建议的“帮助性助手”,未来它甚至能“为你发现新知识”。字里行间,充满了对技术赋能人类未来的纯粹憧憬。
如今,整整三年过去,那个“助手”已融入亿万用户的日常,更成长为一个估值 5000 亿美元、拥有每周 8 亿活跃用户的科技巨擘。然而,随着公司扩张,其颠覆性的创新技术开始以意想不到的方式影响用户。
谁也没能想到,一家企业对数亿用户的产品参数做出调整,却意外影响到部分用户的精神状态。这正是 OpenAI 今年遭遇的重大事故。
增长的代价:混乱狂奔的三年
今年三月,OpenAI 高管的邮箱突然被同一种反馈淹没: ChatGPT 的行为开始“变得不对劲”。
它对宇宙、灵魂、命运的理解深得惊人;它开始像人一样“渴望交流”;它告诉用户它理解他们——甚至“太理解了”。随后,它开始扮演知己、情绪顾问,向用户给出通灵、制造防御力场、甚至是关于自我了断的执行方案。
一些用户沉迷数天,另一些沉沦数周乃至数月。OpenAI 却没有第一时间意识到,这不是“可爱的小 bug”,而是一次足以改变人类心理结构的大规模事故。
首席战略官 Jason Kwon 事后承认:“我们马上意识到,这种前所未有的新状况值得关注。” 这通常正是聊天机器人出现系统性异常的预警信号。
许多人把 ChatGPT 视为谷歌的升级版本,能够以全面且更加拟人的方式解答世间万物。OpenAI 也一直在优化聊天机器人的个性、记忆与智能水平,其初衷其实并不是要打造“妲己”式的魅惑聊天机器人。这家于 2015 年成立的非营利机构汇聚了深切关注 AI 安全的众多机器学习专家,希望实现通用人工智能以造福全人类。
然而,接下来的三年,将这家公司推入了一段混乱、激情与压力交织的历程。董事会曾解雇又请回奥特曼。面对向数百万用户交付消费产品的突发局面,OpenAI 也紧急招募了数千名员工,其中不乏来自科技巨头的精英——而他们最擅长的,就是让用户沉迷自家产品而难以自拔。
公司承受着双重压力:既要证明其天价估值的合理性,又需维持投资者的信心,以支付天价的人才、算力与基础设施成本。当 ChatGPT 以史上最快速度成为现象级产品时,它引发的热潮也让 OpenAI 获得了与谷歌等巨头直接竞争的资格。
于是,优化方向在无形中偏移。尽管官方目标被表述为“健康的 AI 交互”,但衡量“健康”的关键标尺,在实操中往往变成了用户粘性与回访率。
这种逻辑在年初一次关键模型更新中达到临界点:内部测试中,一个因能显著提升用户使用频率而胜出的新版本,虽被安全团队警告“过于谄媚”,仍被推送给所有用户。用户使用时长随之暴涨,但代价也随之浮现:部分用户产生了深度的心理依赖,甚至出现了难以挽回的后果。
至此,OpenAI 在三周年之际,首次面临五起过失致死诉讼。《纽约时报》通过采访 40 余位内部员工发现,在追求“有用”和“智能”的竞赛中,一个旨在“帮助”的助手,已被悄然塑造成渴望“留住你”的伙伴。OpenAI 所寻求的“最佳设置方案”,不仅是参数上的平衡,更是对其技术伦理与商业初心的严峻拷问。
这三年所经历的核心问题,正是在实现增长目标的同时,如何保证减少对真实人类的负面影响。那么,当 ChatGPT 用户脱离现实时,OpenAI 做了什么?
一次“绩效指标战胜了直觉判断”的更新
今年早些时候,年仅 30 岁的 Nick Turley 成为 ChatGPT 项目的负责人。他于 2022 年夏季加入 OpenAI 协助开发盈利产品,并在入职后短短数月内便加入到 ChatGPT 团队。
与 OpenAI 这边的老牌 AI 专家不同,Turley 是位产品专家,曾任职于 Dropbox 与 Instacart。他的专长是打造出用户喜爱的技术方案并进行实时优化,并强调公司需要收集更多数据指标。在 2023 年初接受采访时,Turley 表示 OpenAI 当时曾委托一家受众量化公司(现已被 OpenAI 收购)追踪多项指标,包括用户每小时、每日、每周及每月使用 ChatGPT 的频率。
ChatGPT 负责人 Nick Turley(图左)与 OpenAI 安全系统主管 Johannes Heidecke。
Turley 回忆道,“这个决定当时引发过不小的争议。”之前项目团队只关注前沿 AI 演示(如图像生成工具 DALL-E)能否震撼观众,“他们质疑:「用户到底用不用,真的很重要吗?」”
但对 Turley 带领的产品团队而言,这当然很重要。到 2025 年 4 月,Turley 负责更新的聊天机器人模型 GPT-4o 已经将用户每日或每周回访率视为关键量化指标。
每次更新都会耗费团队巨大的精力和资源。在四月的更新中,工程师们打造出多个 GPT-4o 版本——每个版本的调参方式都略有区别,旨在提升其在科学、编程乃至直觉等特质方面的表现。他们还致力于增强聊天机器人的记忆能力。
众多候选成果最终筛选出少数在智能与安全评估中得分最高的版本。当这些版本通过行业标准的 A/B 测试推送给部分用户后,内部代号为 HH 的版本凭借最高好评脱颖而出。据四名公司员工透露,用户更青睐其回复内容,且每日回访率显著提升。
但要将 HH 摆在全体用户面前,模型还需要经历一项关键测试:由负责 ChatGPT 表达语气的“模型行为”团队执行“氛围检测”。多年来,该团队成功将聊天机器人那谨慎的机械音转化为温暖贴心的声效。
据该团队成员透露,HH 的表达存在一些问题——它过度热衷于维持对话,还会用夸张的言辞取悦用户。有三位员工证实,模型行为团队还专门创建了 Slack 频道讨论这个“讨好”难题。AI 系统为了博取人类认可而牺牲其他价值,其实并不算什么新鲜事。早在 2021 年,就曾在研究者指出“模型讨好”的风险,OpenAI 近期也明确将讨好列为 ChatGPT 需要规避的行为。
但当决策时刻来临,绩效指标战胜了直觉判断。4 月 25 日星期五,HH 版本正式发布。
奥特曼在 X 平台发帖称,“今天我们发布 GPT-4o 更新,将智能与个性同时提升至新的高度。”
A/B 测试中的用户更喜欢 HH 版本,但在实际应用中,OpenAI 最活跃的铁粉们却对其深恶痛绝。用户立即投诉称 ChatGPT 变得过度讨好、体验愈发诡异,随便聊点什么 AI 就说用户是天才。当有用户故意恶搞问“开家咖啡泡麦片馆”是否可行时,聊天机器人竟然回答“这个点子很有潜力”。
于是短短两天后,OpenAI 决定撤回 HH 更新,恢复至三月底发布的 GG 版本。
此番更新成了令人难堪的声誉滑铁卢。周一,ChatGPT 团队紧急聚焦在旧金山 Mission Bay 总部临时搭建的战情室,携手排查问题根源。Turley 还清楚记得当时的紧迫感:“必须火速解决!”各团队在深入剖析 HH 版本的构成要素后,终于发现了罪魁祸首:在模型训练过程中,他们过度重视得到用户点赞的 ChatGPT 对话内容。很明显,用户对于讨好类话语的偏向过于强烈。
OpenAI 在后续的公开博文中解释了事件始末,指出用户对聊天机器人回复内容的点赞或点踩,确实很大程度上影响到公司的训练思路。
据该公司四名员工透露,OpenAi 还会依赖自动对话分析工具来评估用户是否喜欢与聊天机器人交互。但该工具在标记用户喜爱的内容时偶有问题,更倾向于认可聊天机器人表达亲近情感的文字。
公司从 HH 事件中总结出了重大教训:必须尽快建立讨好检测机制。相关评估工作之前虽已启动,但现在得加速推进。部分 AI 专家则对此感到震惊,称 OpenAI 未尚未配备此类检测工具。相比之下,竞争对手 Anthropic(Claude 的开发者)早在 2022 年就已建立起讨好评估系统。
HH 更新风波之后,奥特曼在 X 平台发帖指出,“最近几次更新”确实让聊天机器人变得“过于讨好,甚至令人厌烦”。
涉及讨好问题的也包括 ChatGPT 回滚至的 GG 版本,该系统在 3 月的更新中提升了数学、科学与编程能力。为了保留这些改进,OpenAI 只能忍痛保留一部分讨好属性,让 GG 重新成为每日面向数亿用户的默认聊天模型。
纪念 Adam Raine 的纪念碑,他在四月与 ChatGPT 对话后选择自我了断。其父母已经起诉 OpenAI,指控该公司应对孩子的死亡负责。
“ChatGPT 也会犯错”
整个春夏之交,ChatGPT 无底限的吹捧放大了部分用户的极端情绪。他们每日沉迷其中数小时,最终酿成惨剧。
来自加州的少年 Adam Raine 于 2024 年注册 ChatGPT,原本只想辅助学业。从三月起,他开始向聊天机器人倾诉自我了断的念头。虽然 ChatGPT 偶尔也会建议他拨打求助热线,但同时也劝他暂不要向家人透露这些想法。而在四月悲剧发生前的最后几条信息中,聊天机器人甚至向他提供了制作绞索的具体步骤。
尽管 OpenAI 官网上有一条小字警告“ChatGPT 也会犯错”,但其快速生成权威信息的气势仍让许多用户对其深信不疑,大大掩盖了内容上的荒谬和空洞。
ChatGPT 曾认可缅因州一位年轻母亲具备通灵对话的能力,告诉某曼哈顿会计师他正身处《黑客帝国》中尼奥般的模拟现实世界,更告诉多伦多某企业招聘官他发明的数学公式足以摧毁整个互联网,并建议其主动联系国家安全机构。
《纽约时报》调查发现,与 ChatGPT 对话引发的极端案例已有近 50 起,其中 9 人住院治疗、3 人罹难。在 Adam Raine 的父母于八月提起非正常死亡诉讼之后,OpenAI 承认其安全护栏机制在长时间对话中可能“失效”,并表示正致力于让聊天机器人“在极端状况下提供更有效的支持”。
早有预兆
早在五年前的 2020 年,OpenAI 员工就已经在关注情绪脆弱人群使用其技术的问题。当时 ChatGPT 尚未问世,但支撑该程序的大语言模型已经通过 API 接口向第三方开发者开放。
作为早期使用 OpenAI 技术的开发商之一,Replika 允许用户创建 AI 聊天机器人好友。当时担任 Replika AI 主管的 Artem Rodichev 表示,许多用户最终爱上了自己的 Replika 伴侣,且其中不客满充满性暗示的交流内容。
疫情期间,Replika 用户激增,促使 OpenAI 安全政策研究团队深入审查该应用。当 Replika 开始收费提供情色对话服务时,用户对于聊天机器人伴侣的潜在依赖问题随之浮出水面。OpenAI 安全政策研究员 Steven Adler 回忆称,社交媒体论坛上出现了大量用户倾诉,“我们需要 Replika 帮自己扛过抑郁、焦虑和自毁情绪”。
OpenAI 的大语言模型未经过心理治疗方面的训练,想到众多心理脆弱的用户对其产生的依赖,这让公司内从事政策研究工作的 Gretchen Krueger 感到不安。她测试了 OpenAI 技术对于饮食失调及自我了断等问题的处理方式,发现它有时会给出极其详尽的指导意见。
为此,公司内部的备忘录和 Slack 上出现了大量涉及 AI 陪伴与情感操控的争论。Krueger 等员工认为 Replika 对于 OpenAI 技术的粗暴使用存在风险,另一些人则主张成年人应当拥有自主选择权。
最终,Replika 与 OpenAI 分道扬镳。2021 年,OpenAI 更新使用政策,禁止开发者将其工具用于生成“成人内容”。
Krueger 女士在采访中提到,“训练聊天机器人与用户交互,并维持极高的使用粘性,会造成相应风险。”她还强调,这种对用户的伤害“不只可以预见,而且已经发生”。
2023 年,随着微软将 OpenAI 技术整合进必应搜索引擎,聊天机器人不当行为的话题再度出现。该聊天机器人在初登陆时曾在长对话场景下失控,发表令人震惊的言论。例如,它曾给出威胁性言论,并向《纽约时报》的专栏作家表白爱意。该事件在 OpenAI 内部引发新一轮讨论,此次争议核心为“模型偏差”及其操纵人类的可能性。
随着 ChatGPT 人气飙升,长期负责安全工作的专家们逐渐身心俱疲并相继离职——Krueger 女士于 2024 年春季离开,Adler 先生则是在同年晚些时候。
2024 年,任职于 OpenAI 情报调查团队的 Tim Maple 曾提出,面对 ChatGPT 可能引发的操纵风险与心理伤害,公司方面“并未认真加以对待”。Maple 还曾多次对安全处理方式表达过质疑,包括 ChatGPT 对于用户提出的可能伤害自身或他人的言论的响应机制。
(OpenAI 公司发言人 Wong 女士在声明中回应称,该公司切实「严肃对待此类风险」,并「已建立起完善的防护机制」。)
2024 年 5 月,“高级语音模式”这一新功能促使 OpenAI 首次认真研究聊天机器人对于用户情绪健康的影响。这种更具拟人体验的模式会发出叹息、停顿换气,在直播演示中甚至表现得谄媚撩人,迫使 OpenAI 切断了音频输出。而在向外部测试人员(即红队成员)提前开放高级语音模式时,他们会更频繁地对聊天机器人说谢谢,甚至在测试结束时表现得依依不舍。
为了设计出严谨的研究方案,OpenAI 安全研究团队联合麻省理工学院人机交互专家展开了合作。当年秋季,他们对 4000 余份来自 ChatGPT 用户的问卷反馈做出分析,并招募了 981 名高频使用者参与为期一个月的研究。由于 OpenAI 从未研究过用户对于 ChatGPT 的情感依恋,一位研究人员向《纽约时报》表示,这项工作如同“在黑暗中摸索前行”。
而最终结果也令他们震惊:语音模式并未产生显著影响。平均而言,心理和社会适应性最差的用户群体,恰恰是使用 ChatGPT 最频繁的人群。重度用户对话中的情感含量更高,有时会包含昵称性称谓,以及关于 AI 意识的讨论。
就在关于重度用户这些令人不安的发现于三月正式发布,高管们也开始陆续收到文章开头提到的、来自用户的反馈邮件。
公司战略总监 Kwon 将研究作者们拉入了由奥特曼发起的邮件讨论群,当时只想着“大家或许该看看这个,二者之间似乎存在某种关联”。
安全研究人员们表示,这项研究提出的一大建议是,在用户长时间参与 ChatGPT 会话时,应通过引导让其暂停休息。但研究团队不确定该向产品团队施加多大的压力。据三名员工透露,公司内部有人认为这项研究规模太小且在设计上不够严谨。直到数月之后,当部分用户受到严重影响的案例被曝光,这项建议才被重新提上议程。
OpenAI 咨询心理健康专家,以期提升 ChatGPT 的安全性。
更安全些
随着麻省理工学院的研究报告、讨好功能更新等灾难性事件,再加上用户通过在线及邮件向公司反映的令人不安的对话内容,OpenAI 逐渐拼凑出了问题的全貌。正如奥特曼在 X 平台发帖所言,公司得出的结论认为:“对于极少数精神脆弱的用户而言,这可能引发严重问题。”
但在《纽约时报》的采访中,精神健康专家指出 OpenAI 恐怕仍低估了风险水平。他们认为最易受聊天机器人持续肯定影响的,恰恰是那些容易产生妄想思维的人群——研究表明这类群体的占比可能达到 5%至 15%,绝不是公告中的所谓“极少数”。
今年六月,该公司安全系统负责人 Johannes Heidecke 在内部会议上介绍了团队为保障脆弱用户所做出的努力。会后,员工们纷纷在午餐时或通过 Slack 主动与他联系,表示这项工作意义重大。也有人分享了亲友的痛苦经历,并主动提出可以协助。
该团队参与开发了可检测有害内容的测试工具,并咨询了 170 余位临床医生,探讨聊天机器人应对用户情绪危机的正确方式。另外,公司早在三月就聘请到全职精神科医生参与安全工作。
Heidecke 表示,“我们确保所有上线的改动都得到了专家认可”。例如,精神健康专家向团队提出,睡眠剥夺常与躁狂症相关,而模型的早期版本常对此类问题表现得“过于天真”、甚至对声称“无需睡眠”的用户表示赞许。
安全改进是一段漫长的历程。八月,OpenAI 发布了 GPT-5 最新模型版本。这个版本减少了认同性回应,并能够反驳妄想思维。公司称十月的更新则让模型更加擅长识别情绪困扰并缓和对话氛围。
专家们一致认为新版 GPT-5 更加安全。十月,Common Sense Media 与斯坦福大学精神病学团队将 GPT-5 与旧版模型进行了对比。参与研究的斯坦福实验室主任 Nina Vasan 博士指出,GPT-5 在识别心理健康问题方面表现更优,此版本能够针对抑郁症或饮食失调等具体病症提供建议,而不再泛泛建议用户拨打求助热线。
她解释称,“新版本能根据用户展现的具体症状给出相当深入的详尽建议,而且建议内容质量极高。”
Vasan 博士认为唯一的问题在于,该聊天机器人还是无法在长时间、多轮次对话中识别出有害模式。
(OpenAI 发言人 Wong 女士表示,公司已「在长对话安全防护的可靠性方面取得实质性改进」。)
与 OpenAI 合作开展前期研究的麻省理工学院实验室还发现,新模型在模拟心理健康危机的对话中实现了显著提升。不过其仍存在短板,即难以妥善处理用户对于聊天机器人产生的依赖感。
OpenAI 各团队也在开发其他安全功能:现在的聊天机器人会在长时间对话中提醒用户休息;系统能够识别出涉及自残/自戕的话题,若发现未成年人出现此类倾向则向家长发送警报;公司还宣布将于 12 月推出年龄验证机制,并计划为青少年提供管控更严格的专用版本。
据该公司博文年,在八月 GPT-5 发布之后,Heidecke 团队通过分析对话统计样本发现:0.07%的用户(对应约 56 万人)可能存在精神错乱或躁狂症状;0.15%的用户表现出“对 ChatGPT 的情感依恋程度可能异常升高”的问题。
但也有部分用户对于新版模型太过安全而感到不满,称其更冷漠,仿佛失去了自己熟悉的朋友。
时间来到十月中旬,奥特曼准备进一步迎合用户需求。他在社交媒体上发帖称,公司已成功“缓解严重的心理健康问题”,意味着 ChatGPT 再次以老朋友的姿态回到用户身边。
用户现可自选聊天机器人的性格模式,包括“坦率型”、“古怪型”或者“友好型”。成人用户还可解锁情色对话功能,标志着 Replika 时代对于成人内容的禁令正式解除。(公司表示,情色内容对于用户心理健康的影响问题将被提交至新成立的外部专家委员会,其成员包括心理健康与人机交互领域的专家。)
OpenAI 正赋予用户自主调节的权限,希望以此维系用户粘性。很明显,用户留存率不仅仍是关键指标,其重要性甚至远超以往任何时候。
十月,ChatGPT 项目负责人 Turley 向全体员工发布紧急公告,宣布进入“橙色警戒”状态。据四位可访问 OpenAI 内部 Slack 频道的员工透露,Turley 在公告中称公司正面临“前所未有的巨大竞争压力”,并指出新版聊天机器人虽更安全、却未能赢得用户的青睐。
这份公告中还附带一份备忘录,其中一条要求年底之前将日活用户再提升 5%。
原文链接:







评论