首届AICon深圳正式启动|AI实践哪家强?来 AICon,解锁技术前沿,探寻产业新机! 了解详情
写点什么

OpenAI 推出专注于可靠性的 o3-pro 模型,用户反馈褒贬不一

作者:Robert Krzaczyński

  • 2025-06-24
    北京
  • 本文字数:849 字

    阅读完需:约 3 分钟

大小:446.39K时长:02:32
OpenAI推出专注于可靠性的o3-pro模型,用户反馈褒贬不一

OpenAI 推出了 o3-pro,这是其最先进模型的新版本,目标是在复杂任务中提供更可靠、周到的响应。现在,Pro 和 Team 用户可以在 ChatGPT 中或通过 API 使用 o3-pro,它取代了早期的 o1-pro。

 

基于 o3 架构的 o3-pro 保留了对 Python、文件分析、网页浏览和图像解释等工具的访问权限,使其能够解决多方面的问题。该模型专为那些优先考虑正确性和深度而非速度的用户设计。OpenAI 提醒说,o3-pro 的响应生成时间可能比更轻量级的模型要长。

 

专家和学术评估显示新模型有所改进。OpenAI 报告称,在“4/4 可靠性”测试中——即模型必须连续四次正确回答同一个问题——o3-pro 的表现超过了 o1-pro 和基础 o3。它在清晰度、遵循指令和特定领域的强度方面也得分更高,特别是在 STEM、写作和商业环境中。


来源:help.openai.com

 

一些用户认为 o3-pro 是一个实用的升级。一条评论总结道:

 

这只是 o1-pro 的 o3 版本……不是游戏规则的改变者,但它可能会在之前刚好差口气的任务上跨越门槛,这可能导致巨大的生产力提升。

 

然而,早期测试者也提出了担忧。性能较慢是一个缺点:

 

它在算法问题上做得还可以,但花费的时间太长了……Android 和 macOS 应用程序经常超时。

 

其他人对幻觉问题是否得到解决表示怀疑:

 

对我来说,完整的 o3 一度让我大开眼界,但最近我意识到它产生了太多幻觉,这成了一个大问题。我怀疑 o3-pro 是否解决了这个问题。我在 ChatGPT 的自定义指令中总是要求在提出主张时引用来源,包括直接引用,因为我希望这能减少幻觉,但它并没有。我经常查询医疗相关的事情,它经常会编造不存在的数字或直接引用。

 

这种挫败感在更广泛的批评中得到了呼应:

 

在这一点上,我不需要更智能的通用模型来完成我的工作。我需要的是不产生幻觉的模型,速度更快/成本更低,并且在特定领域有更好的品味。我认为这就是我们将看到未来改进的地方。

 

值得注意的是,由于技术限制,o3-pro 目前不支持图像生成、Canvas 或临时聊天。这些功能仍然可以通过其他模型如 GPT-4o 和 o4-mini 访问。

 

原文链接:OpenAI Launches o3-pro Model Focused on Reliability, Amid Mixed User Feedback

2025-06-24 13:004127

评论

发布
暂无评论
发现更多内容

anyRTC Native 4.1.0.1与Web SDK 4.0.11上线

anyRTC开发者

学习 WebRTC 语音 直播 sdk

3种双集群系统方案设计模式详解

华为云开发者联盟

数据库 数据仓库 数据 双集群系统 双ETL模式

从 Node.js(JavaScript) 到 Golang,我的开发体验

Garfield

node.js Go 语言

Spring Bean处理器

语霖

Spring Framework

技术分享:即构互动白板音视频同步、多端有序协作技术实践

ZEGO即构

音视频 在线教育 SVG

XSKY对象存储获全球备份领域领导者Commvault官方认证

XSKY星辰天合

深圳泰利能源有限公司涉嫌传销 共计2.7亿元

CECBC

区块链 基金

区块链助力军事人力资源配置

CECBC

区块链 军事

挽救你的视频号:能够把PPT转换成视频,把备注转换成语音的开源项目

陈磊@Criss

SpreadJS 纯前端表格控件应用案例:MHT-CP数据填报采集平台

葡萄城技术团队

LeetCode题解:155. 最小栈,单个栈存储入栈元素与最小值之差,JavaScript,详细注释

Lee Chen

大前端 LeetCode

读懂k8s 容器编排控制器 Deployment

Garfield

k8s pod k8s入门

数字资产钱包开发,数字加密货币app搭建

13530558032

1. 不吹不擂,第一篇就能提升你对Bean Validation数据校验的认知

YourBatman

Hibernate-Validator Bean Validation 数据校验 JSR380

你问我答:现有的应用有必要做微服务改造吗?

BoCloud博云

容器 DevOps 微服务 云平台 博云

华为云FusionInsight大数据技术普惠创新,释放千行百业数据价值

数据湖洞见

大数据 FusionInsight 华为云

SpreadJS 纯前端表格控件应用案例:雨诺订单管理系统(雨诺OMS)

葡萄城技术团队

关于显性知识和隐性知识

Tanmer

知识管理 知识产权

人的转型才是关键 数字化时代你具备数字领导力么

CECBC

区块链 数字化时代

云原生如何来进行HTTPS升级

soolaugust

架构 云原生 设计模式

云算力挖矿平台APP,算力挖矿建设开发

13530558032

区块链支付新模式开发,USDT支付系统搭建

13530558032

话题讨论 | 当你敲代码累了时,一般喜欢吃点什么补充能量?

InfoQ写作社区官方

加班 写作平台 代码 话题讨论

案例分享丨红外自动感应门设计与实现详解

华为云开发者联盟

物联网 传感器 感应探测器 SMT32处理器 感应门

凡泰极客与Rancher达成深度战略合作,加速企业构建私有化小程序生态

FinClip

数字货币交易平台源码,数字货币交易所开发核心功能

13530558032

FlinkX 如何读取和写入 Clickhouse?

Apache Flink

flink

某程序员毕业进UC,被阿里收购!跳去优酷土豆,又被阿里收购!再跳去饿了么,还被阿里收购!难道阿里想收购的是他?

程序员生活志

职场 阿里

Cassandra Gossip协议的二三事儿

华为云开发者联盟

源码 三次握手 开发者 Cassandra Gossip协议

MAC系统初始化

焦振清

macos 重装系统

融云Geek Online 2020 编程挑战赛重磅来袭

InfoQ_967a83c6d0d7

OpenAI推出专注于可靠性的o3-pro模型,用户反馈褒贬不一_云计算_InfoQ精选文章