10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型

  • 2024-05-14
    北京
  • 本文字数:2433 字

    阅读完需:约 8 分钟

大小:1.20M时长:07:00
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型

上周,关于 OpenAI 即将发布重大更新的报道层出不穷。有报道称,ChatGPT 制造商 OpenAI 计划通过推出 Google 搜索的竞争对手来增强聊天机器人的功能并开拓新市场。报道还称,这款新搜索产品可能会在 5 月 13 日 Google I/O 大会前一天发布。不过 Altman 否认了此类传言。


甚至还顺势在 X 上的一篇帖子中写道,“不是 GPT-5,也不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。”



就在刚刚,OpenAI 官宣了 Altman 口中的“就像魔法一样”的东西。

OpenAI 官宣旗舰款模型 GPT-4o,完全免费

在发布会刚开始,OpenAI 就发布了一款名为 GPT-4o 的新旗舰生成式人工智能模型,该模型将在未来几周内在公司的产品中“迭代”推出。


OpenAI 首席技术官 Muri Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但改进了 GPT-4 在文本、视觉以及音频方面的能力。



“GPT-4o 通过语音、文本和视觉进行推理,”Murati 在 OpenAI 办公室的主题演讲中说道。为了让其更加智能,OpenAI 团队在语音模式背后添加了新技术,人们可以用麦克风与 ChatGPT 交谈。


OpenAI 之前的领先模型 GPT-4 接受了图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像内容等任务。


GPT-4o 不仅可以将语音转换为文本,还可以理解和标记音频的其他功能,例如呼吸和情感。此外,GPT-4o 具有先进的音频理解能力,并且可以控制其声音(听起来像机器人、声音兴奋、舒缓等)。


虽然这背后的更多技术细节没有公布出来,但 OpenAI 表示,现在 GPT-4o 在 50 种语言中的速度更快,也许使用的技术与他们在 GPT-4 上加速日语的技术相同。借助 GPT-4o/ChatGPT 桌面应用程序,用户可以有个编程伙伴一起交谈,并看到您所看到的内容。


此外,OpenAI 正在发布 ChatGPT 的桌面版本和更新的 UI。


OpenAI 研究员 William Fedus 表示,“GPT-4o 是我们最先进的新前沿模型。我们一直在 LMSys arena 上测试一个版本 im-also-a-good-gpt2-chatbot。”



“这不仅是世界上最好的模型,而且可以在 ChatGPT 中免费使用,这对于前沿模型来说是前所未有的。” Fedus 补充道,“我们发现在更难的提示集上——特别是编码——存在更大的差距:GPT-4o 比我们之前的最佳模型实现了 +100 ELO。”



奥特曼在推特里也表示,“GPT-4o 是我们最好的模型。”



另外,在 API 中,GPT-4o 的价格是 GPT-4-turbo 的一半,速度是 GPT-4-turbo 的两倍、5 倍速率限制。


通常,当 OpenAI 宣布其 ChatGPT 模型的新版本时,都会对特定付费用户开放。然而,此次是个例外,该公司已决定允许所有人使用这项新技术。

GPT-4o 可以像人类一样与你交谈,还能解方程式

一直以来,OpenAI 希望与 ChatGPT 交谈就像与真人交谈一样,但遗憾的是之前 ChatGPT 的反馈总是有些延迟,这就破坏了交谈的沉浸感。现在,该公司正在 GPT-4o 背后添加新技术,以使与聊天机器人的对话速度更快。


为了展示这一点,OpenAI 使用语音与 GPT-4o 进行了对话演示。GPT-4o 不仅在演示者结束讲话后几乎立即做出响应,而且还通过文本转语音进行响应,让您感觉就像在与某人实时交谈。在演示过程中,GPT-4o 指导演示者 Mark Chen 如何更好地呼吸;包括采集他的呼吸音频样本,并为他提供如何做得更好的建议。


另一位演示者展示了 GPT-4o 在提示“机器人和爱”的情况下讲睡前故事。故事进行到一半时,OpenAI 开发人员 Mark Chen 介入并要求 GPT-4o 调整它说话时的情绪。果然,GPT-4o 可以根据要求改变声音,从过于戏剧化的表演到冷漠、机械的语气。最后,他们展示了 GPT-4o 的一些歌唱能力来完善这个故事。



此外,此次发布会上演示者们还展示了 GPT-4o 在数学方面的“才能”。演示者写出了一个方程式并通过手机摄像头展示了 GPT-4o。它被指示帮助解决问题,但不泄露答案。果然,GPT-4o 指导演示者完成了求解简单方程的过程,几乎扮演了教师的角色。另外,它甚至还回答了典型的“我什么时候才能在现实生活中使用它?”问题,解释二次方程如何帮助我们完成日常任务。


演示者还使用桌面版 GPT-4o 来检查他们拥有的一些代码。GPT-4o 不仅可以解释代码的作用,还可以告诉您如果调整代码的特定部分会发生什么。

此前猜测全部落空

AIGC 赛道过去一年“卷疯了”似乎成为了业界共识,众多公司推出了自己的 AI 聊天机器人,谷歌的 Gemini、Anthropic 的 Claude 和 X 的 GrokAI 等竞争对手都在从 OpenAI 这里抢走更多关注。



这次发布会之前,网上对 OpenAI 的发布内容充满猜测:Abacus.AI CEO 猜测,新的 Siri 将来自 OpenAI,更具体地,有网友表示是 ChatGPT iOS 中的对话模式;英伟达高级人工智能研究科学家 Jim Fan 表示,“预计 OpenAI 明天将演示实时语音助手。”;有网友说是“Google 级别的抓取和每日模型更新”。


还有网友 Ananay 表示“OpenAI 似乎正在致力于在 ChatGPT 内进行电话通话,或者至少提供某种程度的实时通信,而不仅仅是文本。这可能只是周一宣布的活动的一小部分。”他甚至表示,“OpenAI 现在已经部署了 webRTC 服务器来实现这一点,并且最近配置了这些服务器。”


这是一个开源项目,用于在应用程序内提供实时通信 - 例如语音和视频会议。这可能是 ChatGPT 代理行为的一部分。有了这个,你就可以向人工智能发出指令,让它启动并代表你执行操作——给予它呼叫访问权限可以让它打电话预约或处理来电,而无需你参与。



Altman:每年烧掉 500 亿美元我都不在乎

值得注意的是,Sam Altman 最近在接受媒体采访时表示,他将不惜一切代价致力于构建通用人工智能 (AGI)。在与斯坦福大学的学生互动时,Altman 表示,开发 AGI 的任何成本都是合理的。


据《财富》杂志报道,他表示:“OpenAI 可能有比我更有商业头脑的人担心我们的支出,但我并不这么认为。”


“无论我们每年烧掉 5 亿美元、50 亿美元还是 500 亿美元,我都不在乎,我真的不在乎,只要我们能保持在一条轨道上,我认为最终我们会为社会创造比这更多的价值,只要我们能找到一种方法来支付账单,就像我们制造通用人工智能一样,这将是昂贵的,但完全值得,”他补充道。

2024-05-14 02:357571
用户头像
李冬梅 加V:busulishang4668

发布了 1150 篇内容, 共 768.9 次阅读, 收获喜欢 1282 次。

关注

评论

发布
暂无评论
发现更多内容

火山引擎DataLeap的Data Catalog系统公有云实践

字节跳动数据平台

大数据 火山引擎 大数据研发

TCL 基于 StarRocks 构建统一的数据分析平台

StarRocks

#数据库

磐久网络|揭秘阿里云HAIL数据中心网络

云布道师

阿里云 数据中心 基础设施建设

华夏银行:详解iDo平台一体化运维的落地过程

嘉为蓝鲸

运维 金融 银行 数字化

教你用JavaScript完成进度条

小院里的霍大侠

JavaScript 编程开发 初学者 入门实战

LeetCode题解:938. 二叉搜索树的范围和,栈,JavaScript,详细注释

Lee Chen

JavaScript LeetCode

供应链-数字化招投标/采购/供应商管理系统

金陵老街

数字化 Java‘’ Vue 3 spring-boot

火山引擎 DataTester 智能运营,帮企业实现“千人千面”精准营销

字节跳动数据平台

A/B 测试

通过支付网关提高第三方支付接入效率

产品海豚湾

产品经理 产品设计 支付系统 产品架构 11月月更

ansible2.4安装和体验

程序员欣宸

DevOps ansible 11月月更

降价背后,函数计算规格自主选配功能揭秘

阿里巴巴云原生

阿里云 云原生 函数计算

基于云边协同架构的五大应用场景革新

阿里云CloudImagine

阿里云 边缘计算 边缘云

阿里P8面试官总结的《2022最新年底java面试题》,搞定90%以上的技术面

钟奕礼

Java 程序员 java面试 java编程

透明LED屏幕如何设计显示效果更好?

Dylan

LED LED显示屏

web前端和java培训学编程哪个更好

小谷哥

Service Mesh 的下一站是 Sidecarless 吗?

SOFAStack

MOSN

瓴羊Quick BI自助式报表分析工具,令企业的运营服务更高效

夏日星河

深入了解瓴羊Quick BI,对于商业智能BI发展情况更好分析

巷子

云计算和虚拟化的三个小区别简单说明

行云管家

云计算 虚拟化

常规加密算法是什么?原理是怎么样?有哪些?

行云管家

算法 加密算法 国密

java程序员,是不是很想进字节跳动?开发三年的我拿到了入职通知

钟奕礼

Java 程序员 java面试 java编程

制造业数字化发展,瓴羊Quick BI引起了需求者的关注

夏日星河

Intel Arch SIG:介绍下一代数据中心互联协议CXL及在龙蜥的规划 | 第 54 期

OpenAnolis小助手

开源 直播 intel 龙蜥大讲堂 CXL

QuTrunk与MindSpore量子神经网络初探

启科量子开发者官方号

人工智能 ai框架 量子编程

前端培训程序员学习就业还有前途吗?

小谷哥

前端培训程序员不好招吗,应该怎么学习

小谷哥

java 环境变量配置详细教程(2023 年全网最详细,没有之一)

千锋IT教育

java培训学习中怎么来提升开发水平

小谷哥

面试合集:数据库+数据结构+JVM+网络+JAVA+分布式+操作系统

钟奕礼

Java 程序员 java面试 java编程

New Features | NFTScan 推出 BlueChip、Watch List、Activity Overview

NFT Research

区块链 NFT 数据基础设施

开源共建 | TIS整合数据同步工具ChunJun,携手完善开源生态

袋鼠云数栈

大数据 开源 数据同步工具

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型_生成式 AI_李冬梅_InfoQ精选文章