
OpenAI 推出了 o3-pro,这是其最先进模型的新版本,目标是在复杂任务中提供更可靠、周到的响应。现在,Pro 和 Team 用户可以在 ChatGPT 中或通过 API 使用 o3-pro,它取代了早期的 o1-pro。
基于 o3 架构的 o3-pro 保留了对 Python、文件分析、网页浏览和图像解释等工具的访问权限,使其能够解决多方面的问题。该模型专为那些优先考虑正确性和深度而非速度的用户设计。OpenAI 提醒说,o3-pro 的响应生成时间可能比更轻量级的模型要长。
专家和学术评估显示新模型有所改进。OpenAI 报告称,在“4/4 可靠性”测试中——即模型必须连续四次正确回答同一个问题——o3-pro 的表现超过了 o1-pro 和基础 o3。它在清晰度、遵循指令和特定领域的强度方面也得分更高,特别是在 STEM、写作和商业环境中。

来源:help.openai.com
一些用户认为 o3-pro 是一个实用的升级。一条评论总结道:
这只是 o1-pro 的 o3 版本……不是游戏规则的改变者,但它可能会在之前刚好差口气的任务上跨越门槛,这可能导致巨大的生产力提升。
然而,早期测试者也提出了担忧。性能较慢是一个缺点:
它在算法问题上做得还可以,但花费的时间太长了……Android 和 macOS 应用程序经常超时。
其他人对幻觉问题是否得到解决表示怀疑:
对我来说,完整的 o3 一度让我大开眼界,但最近我意识到它产生了太多幻觉,这成了一个大问题。我怀疑 o3-pro 是否解决了这个问题。我在 ChatGPT 的自定义指令中总是要求在提出主张时引用来源,包括直接引用,因为我希望这能减少幻觉,但它并没有。我经常查询医疗相关的事情,它经常会编造不存在的数字或直接引用。
这种挫败感在更广泛的批评中得到了呼应:
在这一点上,我不需要更智能的通用模型来完成我的工作。我需要的是不产生幻觉的模型,速度更快/成本更低,并且在特定领域有更好的品味。我认为这就是我们将看到未来改进的地方。
值得注意的是,由于技术限制,o3-pro 目前不支持图像生成、Canvas 或临时聊天。这些功能仍然可以通过其他模型如 GPT-4o 和 o4-mini 访问。
原文链接:OpenAI Launches o3-pro Model Focused on Reliability, Amid Mixed User Feedback
评论