2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

o1 不是聊天模型

  • 2025-02-06
    北京
  • 本文字数:4045 字

    阅读完需:约 13 分钟

大小:1.95M时长:11:20
o1 不是聊天模型

作者 | Ben Hylak、swyx & Alessio

译者 | 平川

策划 | 褚杏娟


本文最初发布于博客 Latent Space。


自 o1 于 10 月发布、o1 pro/o3 于 12 月发布以来,许多人都在努力厘清自己的看法,有积极的,也有消极的。在人们对 o1 Pro 的情绪跌至谷底时,我们采取了一种非常积极的态度,并描绘了 OpenAI 若推出每月 2000 美元的代理产品可能需要付出的代价。

 

我们一直在关注 Ben Hylak 在 Apple VisionOS 方面所做的工作,并邀请他在世界博览会上做了演讲。此后,他推出了 Dawn Analytics,并继续发表关于 o1 的真实想法——最初他是一个响亮的怀疑论者,后来慢慢成为了一名日常用户。两种意义上的 “思想改变者”我们都喜欢,同样的对话正在全世界发生,因为人们正在努力从聊天模式转向崭新的推理世界,以及像 Devin(在世博会上宣布现在已正式发布)这样的 x00 美元/月的专业 AI 产品。以下是我们的想法。

o1 不是聊天模型


我是如何从讨厌 o1 到每天用它来解决最重要的问题的?

 

我学会了如何使用它。



https://x.com/sama/status/1877814065088663763

o1 pro 发布时,我毫不犹豫地订阅了。为了证明 200 美元/月的价格是合理的,它只需每月提供 1-2 个小时的工程师时间。但是,经过一天的认真尝试,我得出结论:这是个垃圾模型。

 

每当我提出一个问题,都要等上 5 分钟,而迎接我的却是一堵自相矛盾的大墙,里面还附带着未要求的架构图和优缺点列表。



o1 在回答我的问题时,多次自相矛盾。我在推特上发出了这样的评论,很多人表示赞同,但更有趣的是,有些人强烈反对。事实上,他们对它的出色表现感到震惊。

 

当然,每次 OpenAI 有发布,人们往往都会大肆炒作。但这次的感觉有所不同——这些评论来自于深入一线的人们。

 

我与持不同意见的人进行了交谈,越交谈就越是意识到自己完全弄错了:我把 o1 当成了一种聊天模型,但 o1 并不是。

如何使用 o1 ?


如果 o1 不是聊天模型,那它是什么?

 

我认为它就像一个 “报告生成器”。如果你给它提供足够多的上下文,并告诉它你想要什么,它往往一次就能给出解决方案。

swyx 按语:OpenAI 确实发布了关于提示 o1 的建议,但我们认为那并不完整。从某种意义上说,你可以把这篇文章看作是一本 “缺失的手册”,它提供了在实践中使用 o1 和 o1 pro 的经验。

 

1. 不要写提示,要写简介

提供大量的上下文信息。不管你是怎么理解“大量”的,提供 10 倍那个量的上下文信息。



当使用 Claude 3.5 Sonnet 或 4o 等聊天模型时,通常你会先提出一个简单的问题和一些上下文信息。如果模型需要更多的上下文,它通常会询问(或者从输出结果中可以明显看出)。

根据 OpenAI 官方文档,对于 OpenAI 模型,将上下文放在末尾更适合



 

你要来回迭代多次,纠正它并扩展需求,直到得到理想的输出。基本上,聊天模型就是通过这种反反复复的方式从你那里获取上下文信息。随着时间的推移,我们提问题会越来越快、越来越懒——在获得好的输出结果的同时尽可能地懒。

 

o1 会按字面意思理解懒惰的问题,而不会试图从你那里获取上下文。相反,你需要尽可能多地向 o1 提供上下文信息。

 

即使你只是问一个简单的工程问题:

  • 说明你尝试过的所有无效的方法

  • 添加所有数据库 Schema 的完整转储文件

  • 解释你所在的公司是做什么的,规模有多大(并定义公司专用术语)

 

总之,要把 o1 当新员工对待。注意,o1 的错误包括推理它应该推理多少。有时,差异无法准确地反映任务难度。例如,如果任务非常简单,它往往会无缘无故地陷入推理的兔子洞。注意:o1 API 允许你指定低/中/高推理难度,但这并不向 ChatGPT 用户公开。


向 o1 提供上下文的小技巧

我建议使用 mac/手机上的语音备忘录应用。只需用 1-2 分钟的时间描述整个问题空间,然后将转录文本粘贴进去。

实际上,我有一个便签,里面记录了很长一段可以重复使用的上下文。

swyx:我使用 LS Discord 中由 Sarav 开发的 Careless Whisper

产品中不断涌现的 AI 助手往往能简化这种提取过程。例如,如果你使用 Supabase,就可以尝试让 Supabase 助手转储/描述所有相关的表/RPC 等。



swyx:我会把开头改为 “在提示方面多提供 10 倍的上下文”

 

2. 关注目标:事先准确地描述你想要什么,而不是你想怎么做


在给模型提供了尽可能多的上下文之后,接下来的重点是解释希望它输出什么

 

对于大多数模型,我们接受的培训是,告诉模型我们希望它如何回答我们。例如,“你是一位专家级的软件工程师。慢慢思考,仔细研究。”

 

这与我成功使用 o1 的方法恰恰相反。我不告诉它怎么做,只告诉它做什么。然后让 o1 接管并规划和解决自己的问题。这就是自主推理的作用,而且实际上,比你 “人工介入”手动审查和聊天要快得多。



来自 swyx 的图解

 

swyx 的专业建议:为你所认为的 “好 ”与 “坏 ”制定一个非常好的标准,这有助于为模型提供一种评估自身输出和自我改进/修正自身错误的方法。从根本上说,你可以将 LLM 作为法官加入到提示符中,让 o1 可以在需要时运行它。



一个额外的好处,最终你可以获得一个 LLM-as-Judge 评估器,当它正式上市时,你就可以将其用于强化微调

这就要求你非常清楚自己想要什么(而且你真的应该在每个提示中要求它提供一个特定的输出——它只能在开始时推理)。

 

听起来比实际做起来要简单。我是想让 o1 在生产中实现一个特定的架构,还是创建一个最小的测试应用,或者只是探索特定选项并列出利弊?这些要求是完全不同的。

 

通常,o1 默认使用报告式语法解释概念——完全采用带编号的标题和副标题。如果你想跳过解释,输出完整的文件,只需明确说明即可。


自从学会了如何使用 o1,我就被它在第一时间生成正确答案的能力深深震撼了。它确实在各方面都好很多(除了成本/延迟)。下面是几个特别突出的小例子。

3. 知道 o1 擅长什么,不擅长什么


以下是 o1 擅长的:


  • 一次性完美地生成整个/多个文件: 到目前为止,这是 o1 最令人印象深刻的能力。我只需要复制/粘贴大量的代码,并说明我正在构建的内容,它就能按照我代码库中现有的模式,一次性地、完整地生成整个(或多个)文件,通常不会出现任何错误。

  • 减少幻觉: 总的来说,它更不容易把事情搞混。例如,o1 在处理定制查询语言(如 ClickHouse 和 New Relic)方面非常出色,而 Claude 却经常把 Postgres 的语法搞错。

  • 医疗诊断:我的女朋友是一名皮肤科医生,所以,只要我的朋友或大家庭中的任何人有任何皮肤问题,都会把照片发给她!出于好玩,我开始并行询问 o1。令人震惊的是,通常情况下,它 5 次中有 3 次接近正确答案。对于医学专家来说,这更有用——它几乎总能提供极为准确的鉴别诊断

  • 解释概念: 我发现,它非常善于用实例解释高难度的工程概念。几乎就像是生成了整篇文章。在做困难的架构决策时,我经常会让 o1 生成多个方案,并列出每个方案的优缺点,甚至还会对这些方案进行比较。我会将这些回复复制/粘贴为 PDF 格式,然后进行比较——几乎就像我在考虑提案一样。

  • 额外的好处:评价。我历来对使用 LLM 作为评价法官持怀疑态度,因为从根本上说,法官模型常常会遇到与最初生成输出时相同的失效模式。然而,o1 却展现出了巨大的潜力——通常,在上下文信息很少的情况下,它就能够判断生成的内容是否正确。

 

以下是 o1 尚不擅长的:


  • 以特定的口吻/风格写作:不,我写这篇博文时没有用 o1 。我发现,它写任何东西都相当糟糕,尤其是用特定的口吻或风格进行写作的时候。它总是倾向于遵循一种非常学术/企业报告的风格。我认为,有太多的推理 token 偏向于这种语气,所以它生成的东西很难摆脱这种风格。下面这个例子是我尝试让它写这篇博文——这是经过多次反复之后的——它只想生成一份平淡无奇的学校报告。



  • 构建整个应用:o1 在一次性处理整个文件方面的能力令人惊叹。尽管如此,尽管你可能会在 X 上看到一些比较乐观的演示—— o1 不会为你构建整个 SaaS,至少不会进行大量的迭代。但它几乎可以一次性地完成整个功能,尤其是前端或简单的后端功能。

为报告生成器设计界面


延迟会从根本上改变我们的产品体验。

swyx:我们同意——现在,AI 延迟经常有多达6个等级



考虑一下邮件、电子邮件和短信之间的区别——主要是延迟。语音信息与电话相比——延迟。视频与 Zoom 相比——延迟。诸如此类。

 

我之所以称 o1 为 “报告生成器”,是因为它显然不是一种聊天模式,感觉更像电子邮件。

 

这一点并未在 o1 的产品设计中体现。我希望看到这种设计能更真实地反映在界面上。

 

这里有一些具体的 AI 用户体验建议,供所有基于 o1 开发产品的人参考:

  1. 可以方便地查看回复的层次结构(考虑一个小型的内容目录

  2. 类似地,使层次结构更易于浏览。由于每个请求通常都大于窗口的高度,我会采取类似 Perplexity 的方法,即每个问题/答案页面占一个部分,而不是自由滚动。在一个答案中,粘性页眉、可折叠页眉等都会很有帮助。)

  3. 可以方便地管理和查看你为模型提供的上下文信息。(颇具讽刺意味的是,Claude 的用户界面在这方面做得更好——当你粘贴一段长文本时,它会以一个小附件的形式呈现)。我还发现, ChatGPT 项目不像 Claude 项目那么好用,所以我经常复制和粘贴东西。

 

题外话:


另外,当涉及到 o1 时,ChatGPT 的 bug 非常多。推理描述非常滑稽,经常完全无法生成,而且,在手机应用上也经常无法使用。



Kenya 的美好一天 ?

未来展望


我非常期待看到这些模型的实际应用。

 

我认为 o1 将使某些产品首次成为可能——例如,可以从高延迟、长时间运行的后台智能中受益的产品。

 

用户愿意为什么样的任务等待 5 分钟?一小时?一天?3-5 个工作日?我认为,如果设计得当,会有很多。

 

随着模型越来越昂贵,实验的合理性变得越来越难以证明。在短短几分钟内浪费数千美元比以往任何时候都要容易。

 

o1-preview 和 o1-mini 支持流式处理,但不支持结构化生成或系统提示。o1 支持结构化生成和系统提示,但不支持流式处理。

 

考虑到响应所需的时间,流式处理似乎是一个必要条件。

 

随着 2025 年的到来,我们将看到开发人员如何使用该模型,这将是一件很酷的事情。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://www.latent.space/p/o1-skill-issue

2025-02-06 16:5110194

评论

发布
暂无评论

当代数据库领域先驱者 Mohan 教授、ASF 成员 Julian 博士莅临天谋科技参观指导

Apache IoTDB

用友与上海国家会计学院联合主办第六届智能财务高峰论坛

用友BIP

智能会计

HashData:大数据时代的“追光者”

酷克数据HashData

毫无意义或有深意?工作反思手册

少油少糖八分饱

职场 工作 价值 生活的意义 工作价值

建立个人学习观|地铁上的自习室

阿里技术

个人学习观 学习观 思想观念

极狐GitLab 与 Flux 集成实现 GitOps

极狐GitLab

开源 DevOps gitlab gitops Flux

低代码开发到底是补品还是垃圾食品?

伤感汤姆布利柏

昇腾AI开发者创享日·广州站成功举办 四大仪式激发人工智能产业创新活力

彭飞

程序员35+危机如何破?

智慧源点

副业赚钱

驱动优化做盾,性能提升为矛,看英特尔锐炫GPU如何破壁生态与创新

E科讯

制品仓智能化管理,引领数字化时代的软件供应链变革

YG科技

做好技术分享需要注意的几点(第三点很重要)

Java 工程师蔡姬

#java 21 天技术人写作行动营 #技术分享

架构误区系列18:error、warn不分

agnostic

日志级别

app开发

Geek_8da502

1688商品详情接口在电商行业中的重要性及实时数据获取实现

Noah

软件测试/人工智能丨关系运算符

测试人

人工智能 软件测试

Go1.21.0 程序启动过程

-Hedon🍭

Go 语言 Go程序启动流程 Go1.21 Go 底层原理

2024 年最值得推荐的 7 个 Vue3 组件库

Kagol

京东商品详情接口在电商行业中的重要性及实时数据获取实现

Noah

第12期 | 用友BIP项目云,助力施工项目全过程、全要素创新发展

用友BIP

项目管理

K8s容器debug高级技巧

SEAL安全

容器 Kubernetes 集群

华为云数字化制品仓,引领企业智能化转型之路

YG科技

Python笔记二之多线程

Hunter熊

Python 多线程

一款基于ESP32的迷你四足机器人

芯动大师

说到CR,我们到底需要关注什么

agnostic

CR

《公立医院成本核算指导手册》印发 公立医院应该如何做好成本核算

用友BIP

成本管理

安卓设备解锁工具 FonesGo Android Unlocker激活中文版

胖墩儿不胖y

Mac软件 安卓设备解锁工具

Wireshark使用技巧

小魏写代码

华为云制品仓CodeArts Artifact:引领数字化风潮,解锁企业未来

YG科技

华为云制品仓库:引领数字化未来的巨量引擎

YG科技

文心一言 VS 讯飞星火 VS chatgpt (153)-- 算法导论12.2 9题

福大大架构师每日一题

福大大架构师每日一题

o1 不是聊天模型_AI&大模型_Ben Hylak等_InfoQ精选文章