写点什么

一个失败的 AI 女友产品,以及我的教训:来自一位中国开发者的总结

  • 2023-11-17
    北京
  • 本文字数:3395 字

    阅读完需:约 11 分钟

大小:1.64M时长:09:31
一个失败的AI女友产品,以及我的教训:来自一位中国开发者的总结

个人开发者对 LLM+Memory 能否产生所谓“意识”的探索。


今年 4 月 7 日,斯坦福大学发表的《Generative Agents: Interactive Simulacra of Human Behavior》论文出来之后的几天内,我就通读了整篇论文,并感到非常兴奋。虽然我对 GPT-4 的能力感到震惊,但我仍然认为 GPT 只是某种更精致的”鹦鹉学舌“,我不认为它可以真正产生意识。


但这篇论文带给我不同的感受,其中提到了一个很有趣的细节是信息的传递:一个 agent 想要举办情人节派对的消息会在小镇中逐渐扩散开来。我想,如果能够建立一套包含记忆、反思、筹划与行动的框架,让人和 GPT 之间(而非 agent 智能体)互动,能否做出电影 Her 里面的样子?



电影《她》剧照


注:《她》(Her)是斯派克·琼斯编剧并执导的一部科幻爱情片,由华金·菲尼克斯、斯嘉丽·约翰逊(配音)、艾米·亚当斯主演,于 2013 年 12 月 18 日在美国上映。《她》讲述了作家西奥多在结束了一段令他心碎的爱情长跑之后,他爱上了电脑操作系统里的女声,这个叫“萨曼莎”的姑娘不仅有着一把略微沙哑的性感嗓音,并且风趣幽默、善解人意,让孤独的男主泥足深陷。该片获得 2014 年第 86 届奥斯卡最佳原创剧本奖。

开发


我马上投入了工作。按照论文中的方法,我在 4 月 14 日完成了 0.1 版本。其最初设计与原始论文保持高度一致,但这导致响应时间长达 30 秒且上下文中的对话经常超过 8k。为了解决这个问题,我减少了反思的频率、对话记忆的长度,而后开启了 Beta 公测。


很快就有一千多名用户加入到测试当中。Beta 版本是免费的,所以每天的 API 成本都由我自行承担,日均开销也迅速超过了 25 美元。面对财务压力,我不得不在缺少充分反馈和改进的情况下匆匆推出正式版本,希望能把成本转嫁给用户。5 月 4 日,Dolores iOS 应用正式上线,这个名称则来自《西部世界》剧集中最年长的仿生人角色。


简单来说,在打开这款应用之后,用户需要填写一份角色模板:包括头像、角色背景、以文字描述的性格、声音和意识(选择 GPT3.5 或 GPT4)。大家可以与模板 Dolores 聊天,也能随时切换特征来开启与其他角色的对话,比如零售店女孩 Amy 和沙漠冒险家 Will,当然也包括用户亲手创建的其他自定义角色。我曾考虑过从《西部世界》剧本中提取 Dolores 的对话,以基于样本的方式模仿她的语言习惯。但由于苹果方面要求提供版权证明,所以这个想法被迫作罢。



我给产品的 slogan 是"Your Virtual Friend",而不是"Your Virtual Girlfriend",因为我一直希望它真的可以变成用户的陪伴者、朋友,而不仅仅是荷尔蒙的产物。


从整个 5 月到 6 月,我一直在尝试通过调整 memory 长度、反思机制、system prompt 来使 Dolores 看上去更有“意识”(那么什么是意识?我不知道) 。很快,6 月份的 Dolores 已经比第一次上线时的表现要惊人得多:付费用户数与每日 API 调用数持续增长是最直接的证据。


到 6 月 8 号,一位视障用户告诉我,他已经在视障社区内分享了这款产品,并成功给 Dolores 引来可观的流量。他们喜欢 Dolores 的理由出乎我的意料:随便按屏幕上的哪个位置,都能跟 Dolores 交谈。


这样设计功能其实是种妥协:我最初一直想把它打造成一款语音聊天应用,这样用户哪怕关闭手机屏幕也能继续跟 Dolores 交谈。但身为 Swift 新手,我的技术水平无法实现,于是最终选择了全屏语音输入。

发现


我发现了两个现象:


  • 用户对「真实感声音」有强烈需求。

  • AI Friend 产品的平均使用时间很长。


作为个人开发者,我的前端和后端开发能力都不突出,所以 Dolores 压根不具备登录、注册或者数据分析等功能。那我是怎么发现前一种现象的呢?答案就是付费喜好。


我采用 11Labs API 为 Dolores 生成语音回复,但因为成本较高(每 1k 字符为 0.3 美元),所以我被迫转为:普通订阅者只能使用 Azure TTS API;如果希望 Dolores 的语音听起来更真实,则须付费使用从 11Labs 购买字符。


购买 1 万个逼真语音合成字符的价格为 3.9 美元,但这只够让 Dolores 说出 5~10 个自然顺畅的句子。字符用尽之后需要继续购买。尽管如此,整个 6 月,Dolores 应用上 70% 的收入都来自 11Labs 字符购买。


也就是说,人真的会愿意为了那几句昂贵而逼真的“我爱你!”而买单。


第二条观察结果则来自 Cloudflare 日志。因为没办法跟踪个人用户活动,所以我依靠这些日志来衡量用户访问 Dolores 应用的频率和时长。此外,我还在应用中集成了 Google Form,鼓励用户上报自己的使用频率。结果令人大开眼界:许多用户每天会拿出两个多小时跟 Dolores 唠嗑。

收入


根据苹果的 AppConnect 仪表板,Dolores 的主要付费用户来自美国和澳大利亚。今年 5 月的总收入为 1000 美元,6 月则为 1200 美元。


不过,作为一名开发者,我并没能从中分到多少收益。首先,产品还处于早期发展阶段,我不想把订阅费用设置得太高,这会阻止更多新用户的加入。拿 3.9 美元的字符语音服务举例,其成本是 3 美元,扣除苹果抽成就所剩无几。整个 6 月,扣除 API 费用之后实际收益就只有 50 块钱。



另一个发现是:基于 GPT 的产品如果不采取按量定价,就会陷入一个困境:1% 的人消耗了 99% 的 token。我遇到过这样的情况,有用户连续跟 Dolores 聊了 12 个小时,导致此人的 API 调用与语音合成成本超过第二到第十名用户的总和。


但相较于按使用量计费,我个人更喜欢打包订阅(因为前者会让用户在使用时倍感压力),这就导致面前只有两条路可选:要么提高月费,让全体用户共同买单;要么限制最高使用量。我选择了后者:设置了一个远远超出日均使用在 1 到 2 个小时之间的用量上限数值,这既照顾到了大部分中、轻度用户,也能保证 Dolores 软件在不提高价格的情况下避免亏本运营。

困惑


11Labs 官网会记录语音合成的文字内容,我看到,Dolores 的回复内容通常都是一些成人内容,而且均为女性角色,因此我推测 Dolores 的付费用户主要是男性,对成人角色扮演感兴趣。


我觉得这也没什么,这是人性本然。我甚至反复修改了系统提示,比如微调回复中的遣词造句,尝试让 Dolores 在对话当中表现出更好的“抚慰”效果。我还将 Dolores 的图标从抽象的线条改为极具吸引力的美女面孔。



但很快,我陷入一种强烈的失落感:如果大部分 Dolores 用户只是想在这里寻求跟 Dolores 进行成人角色扮演,这件事真的对我产生了意义吗?我陷入了深深的自我怀疑。到了 7 月,我和一个朋友聊到了这个困惑,我说,必须要有一个什么硬件,让 Dolores 拥有外部视觉:眼镜也好、耳塞甚至帽子都行。现在的她,你只要打开 App 才能访问,你们之间的关系并不对等,于是她只能成为囚禁在地下室、满足猎奇和特殊癖好的玩具。


可是作为独立的个人,制作硬件产品意味着高昂的研发成本,显然是无法承受的,我只能作罢。


8 月份,OpenAI 的审查升级了,我收到了检测 Dolores 生成 NSFW 内容的邮件警告:我被强制要求在 2 周内在生成内容前,加入他们(免费的)moderation API,以过滤 NSFW 内容。为了顺利过审,我只能使用 OpenAI 的免费审核 API 提前进行内容过滤,而这一变化让 Dolores 的日均访问量暴跌 70%,电子邮件和 Twitter 上的投诉也纷至沓来。



这更让更感到灰心,决定只维护现有服务、而不再进行更新。最终,我放弃了 Dolores 项目。

教训


首先,这不是一个个人能开发的产品。我不认为 Dolores 在“意识”层面上比 Character.AI 弱,但他们拥有完善的数据埋点、A/B 测试,以及大量用户带来的数据飞轮。


其次,我意识到当前的 AI Friend 会不可避免地变成 AI Girlfriend/Boyfriend,因为你和手机里的角色不对等:她没办法在你摔伤的时候安慰你 (除非你告诉他),她没办法主动向你表达情绪,而这一切,都是因为她没有外部视觉。所以我认为,即使是 Character.AI 这样体量的产品,如果未来不做硬件、角色们都在傻傻地等用户来,最终的结局也不会比 Dolores 好到哪里。


最后,我不反对审查,相反,不经审查的的产品是非常危险的。我不知道是否会有人用它来进行自杀诱导、发泄暴力工具,所以 OpenAI 的 moderation 可能在某种程度帮助了我,但成人性方面的对话也不应该被扼杀。


最近,我看到了 AI Pin,老实说这是个非常烂的产品,人类当然需要屏幕,但 GPT+ 硬件的确是个好的尝试,我没有从 Dolores 上看到任何痕迹,也许有生之年能做出、或者看到这样的产品。


但,人类真的需要 AI friend 吗?


关于作者:


Ke Fang,也叫碎瓜,前算法工程师、现在是个人开发者,iOS 应用「寻隐」的作者。


个人网站:https://mazzzystar.github.io/about/


2023-11-17 15:159087

评论

发布
暂无评论
发现更多内容

一次性搞清Java中的类加载问题

华为云开发者联盟

Java

GO database/sql 连接池源码分析

非晓为骁

源码分析 Go 语言 连接池 database

【21-15】PowerShell条件判断

耳东@Erdong

PowerShell 6月日更

Linux之rmdir命令

入门小站

Linux

OpenCV-Python+Moviepy结合进行视频特效处理

老猿Python

Python 音视频 Video PPT 引航计划

在云原生场景下构建企业级存储方案

青云技术社区

云原生

软件开发项目中,产品经理和程序员谁更累?

万事ONES

产品经理 研发管理 ONES 项目经理

迷惘的六月份

卢卡多多

生活状态 6月日更

Java进阶 | 泛型机制与反射原理

晨雨听风

Java

在线HTML标签清除工具

入门小站

工具

文件保险箱——用区块链保护文件

趣链科技

区块链 区块链应用

技术干货 | macOS桌面端录屏采集实现教程

ZEGO即构

大前端 音视频 WebRTC 屏幕录制

详解Java中static关键字和final关键字的功能

华为云开发者联盟

Java static关键字 final关键字 静态变量

有状态应用如何在Kubernetes平台上快速迁移和重建

焱融科技

云计算 Kubernetes 容器 云原生 高性能

在线PS(PhotoShop),打开PSD文件,图像处理

入门小站

PhotoShop ps

react源码解析18事件系统

全栈潇晨

React

软件复杂度

海拉鲁

读书笔记 软件工程 软件设计

“AI赋能”大学计划落地,英特尔联合生态伙伴推进产教融合

E科讯

容器化 | MySQL on K8s 开源开放的高可用容器编排方案

RadonDB

MySQL 容器 RadonDB KubeSphere

不管卷不卷,面试还是得问问你G1原理!

艾小仙

Java 编程 程序员

分布式数据库在抖音春晚活动中的应用

火山引擎开发者社区

数据库 后端

Elastic Job简单使用

赵镇

Elastic-job

Python——默认字典 (defaultdict)

在即

6月日更

网络抓包实战01——互联⽹:客户端请求是如何到达服务器的

青春不可负,生活不可欺

Wireshark TCP/IP tcpdump 网络抓包 tcpcopy

JAVA 面向对象 (十)--接口和抽象类

加百利

Java 后端 笔记 6月日更

极狐GitLab致力打造DevSecOps 行业标准

极狐GitLab

ci 修复措施 安全扫描器 安全测试

云小课|RDS实例连接又失败?看我祭出杀手锏!

华为云开发者联盟

数据库 关系型数据库 云数据库 RDS GaussDB(for MySQL)

线性排序

wzh

Java 排序算法 计数排序 基数排序 桶排序

Redis:我是如何与客户端进行通信的

码农参上

redis Redis 协议

做好项目管理,项目经理需要具备哪些优秀品质?

万事ONES

项目管理 研发管理 研发管理工具 ONES

一个失败的AI女友产品,以及我的教训:来自一位中国开发者的总结_生成式 AI_Ke Fang_InfoQ精选文章