写点什么

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型

  • 2024-05-14
    北京
  • 本文字数:2433 字

    阅读完需:约 8 分钟

大小:1.20M时长:07:00
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型

上周,关于 OpenAI 即将发布重大更新的报道层出不穷。有报道称,ChatGPT 制造商 OpenAI 计划通过推出 Google 搜索的竞争对手来增强聊天机器人的功能并开拓新市场。报道还称,这款新搜索产品可能会在 5 月 13 日 Google I/O 大会前一天发布。不过 Altman 否认了此类传言。


甚至还顺势在 X 上的一篇帖子中写道,“不是 GPT-5,也不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。”



就在刚刚,OpenAI 官宣了 Altman 口中的“就像魔法一样”的东西。

OpenAI 官宣旗舰款模型 GPT-4o,完全免费

在发布会刚开始,OpenAI 就发布了一款名为 GPT-4o 的新旗舰生成式人工智能模型,该模型将在未来几周内在公司的产品中“迭代”推出。


OpenAI 首席技术官 Muri Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但改进了 GPT-4 在文本、视觉以及音频方面的能力。



“GPT-4o 通过语音、文本和视觉进行推理,”Murati 在 OpenAI 办公室的主题演讲中说道。为了让其更加智能,OpenAI 团队在语音模式背后添加了新技术,人们可以用麦克风与 ChatGPT 交谈。


OpenAI 之前的领先模型 GPT-4 接受了图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像内容等任务。


GPT-4o 不仅可以将语音转换为文本,还可以理解和标记音频的其他功能,例如呼吸和情感。此外,GPT-4o 具有先进的音频理解能力,并且可以控制其声音(听起来像机器人、声音兴奋、舒缓等)。


虽然这背后的更多技术细节没有公布出来,但 OpenAI 表示,现在 GPT-4o 在 50 种语言中的速度更快,也许使用的技术与他们在 GPT-4 上加速日语的技术相同。借助 GPT-4o/ChatGPT 桌面应用程序,用户可以有个编程伙伴一起交谈,并看到您所看到的内容。


此外,OpenAI 正在发布 ChatGPT 的桌面版本和更新的 UI。


OpenAI 研究员 William Fedus 表示,“GPT-4o 是我们最先进的新前沿模型。我们一直在 LMSys arena 上测试一个版本 im-also-a-good-gpt2-chatbot。”



“这不仅是世界上最好的模型,而且可以在 ChatGPT 中免费使用,这对于前沿模型来说是前所未有的。” Fedus 补充道,“我们发现在更难的提示集上——特别是编码——存在更大的差距:GPT-4o 比我们之前的最佳模型实现了 +100 ELO。”



奥特曼在推特里也表示,“GPT-4o 是我们最好的模型。”



另外,在 API 中,GPT-4o 的价格是 GPT-4-turbo 的一半,速度是 GPT-4-turbo 的两倍、5 倍速率限制。


通常,当 OpenAI 宣布其 ChatGPT 模型的新版本时,都会对特定付费用户开放。然而,此次是个例外,该公司已决定允许所有人使用这项新技术。

GPT-4o 可以像人类一样与你交谈,还能解方程式

一直以来,OpenAI 希望与 ChatGPT 交谈就像与真人交谈一样,但遗憾的是之前 ChatGPT 的反馈总是有些延迟,这就破坏了交谈的沉浸感。现在,该公司正在 GPT-4o 背后添加新技术,以使与聊天机器人的对话速度更快。


为了展示这一点,OpenAI 使用语音与 GPT-4o 进行了对话演示。GPT-4o 不仅在演示者结束讲话后几乎立即做出响应,而且还通过文本转语音进行响应,让您感觉就像在与某人实时交谈。在演示过程中,GPT-4o 指导演示者 Mark Chen 如何更好地呼吸;包括采集他的呼吸音频样本,并为他提供如何做得更好的建议。


另一位演示者展示了 GPT-4o 在提示“机器人和爱”的情况下讲睡前故事。故事进行到一半时,OpenAI 开发人员 Mark Chen 介入并要求 GPT-4o 调整它说话时的情绪。果然,GPT-4o 可以根据要求改变声音,从过于戏剧化的表演到冷漠、机械的语气。最后,他们展示了 GPT-4o 的一些歌唱能力来完善这个故事。



此外,此次发布会上演示者们还展示了 GPT-4o 在数学方面的“才能”。演示者写出了一个方程式并通过手机摄像头展示了 GPT-4o。它被指示帮助解决问题,但不泄露答案。果然,GPT-4o 指导演示者完成了求解简单方程的过程,几乎扮演了教师的角色。另外,它甚至还回答了典型的“我什么时候才能在现实生活中使用它?”问题,解释二次方程如何帮助我们完成日常任务。


演示者还使用桌面版 GPT-4o 来检查他们拥有的一些代码。GPT-4o 不仅可以解释代码的作用,还可以告诉您如果调整代码的特定部分会发生什么。

此前猜测全部落空

AIGC 赛道过去一年“卷疯了”似乎成为了业界共识,众多公司推出了自己的 AI 聊天机器人,谷歌的 Gemini、Anthropic 的 Claude 和 X 的 GrokAI 等竞争对手都在从 OpenAI 这里抢走更多关注。



这次发布会之前,网上对 OpenAI 的发布内容充满猜测:Abacus.AI CEO 猜测,新的 Siri 将来自 OpenAI,更具体地,有网友表示是 ChatGPT iOS 中的对话模式;英伟达高级人工智能研究科学家 Jim Fan 表示,“预计 OpenAI 明天将演示实时语音助手。”;有网友说是“Google 级别的抓取和每日模型更新”。


还有网友 Ananay 表示“OpenAI 似乎正在致力于在 ChatGPT 内进行电话通话,或者至少提供某种程度的实时通信,而不仅仅是文本。这可能只是周一宣布的活动的一小部分。”他甚至表示,“OpenAI 现在已经部署了 webRTC 服务器来实现这一点,并且最近配置了这些服务器。”


这是一个开源项目,用于在应用程序内提供实时通信 - 例如语音和视频会议。这可能是 ChatGPT 代理行为的一部分。有了这个,你就可以向人工智能发出指令,让它启动并代表你执行操作——给予它呼叫访问权限可以让它打电话预约或处理来电,而无需你参与。



Altman:每年烧掉 500 亿美元我都不在乎

值得注意的是,Sam Altman 最近在接受媒体采访时表示,他将不惜一切代价致力于构建通用人工智能 (AGI)。在与斯坦福大学的学生互动时,Altman 表示,开发 AGI 的任何成本都是合理的。


据《财富》杂志报道,他表示:“OpenAI 可能有比我更有商业头脑的人担心我们的支出,但我并不这么认为。”


“无论我们每年烧掉 5 亿美元、50 亿美元还是 500 亿美元,我都不在乎,我真的不在乎,只要我们能保持在一条轨道上,我认为最终我们会为社会创造比这更多的价值,只要我们能找到一种方法来支付账单,就像我们制造通用人工智能一样,这将是昂贵的,但完全值得,”他补充道。

2024-05-14 02:357508
用户头像
李冬梅 加V:busulishang4668

发布了 1114 篇内容, 共 727.1 次阅读, 收获喜欢 1256 次。

关注

评论

发布
暂无评论
发现更多内容

企业应当实施的5个云安全管理策略

SEAL安全

云计算 容器 DevOps 云原生 DevSecOps

数据中台建设(九):数据中台资产运营机制

Lansonli

数据中台 8月月更

未来已来,只是尚未流行

石云升

读书感悟 未来社会 8月月更 未来以来

什么是 DevOps?看这一篇就够了!

胡说云原生

管理 DevOps 运维 开发 签约计划第三季

技术干货 | 用零信任保护代码安全

权说安全

炫酷又高效的数据可视化大屏,做起来真的没那么难!丨极客星球

MobTech袤博科技

产品设计 数据可视化

【有话耀说】开发小达人们,荣耀开发者服务平台正式入驻InfoQ社区啦~

荣耀开发者服务平台

全面认识MOS管,一篇文章就够了

矜辰所致

电路设计 8月月更 电子设计基础 MOS管

如何过一个充满科技感的七夕?华为告诉你

最新动态

TPC藏宝计划IDO自由协议复利模式开发功能分析

开发微hkkf5566

AI 助力双碳目标:让每一度电都是我们优化的

阿里技术

人工智能

手把手教你用 Jenkins 自动部署 SpringBoot

江南一点雨

Java spring jenkins springboot

【黄啊码】MySQL入门—2、使用数据定义语言(DDL)操作数据库

黄啊码

MySQL 8月月更

秒云成功入选《2022爱分析 · 银行数字化厂商全景报告》,智能运维能力获认可

MIAOYUN

人工智能 银行数字化转型 智能运维 智能运维AIOps

隐私计算与数据流通:关系、作用及功能

Jessica@数牍

隐私保护 隐私计算 数据流通 数据交易 数牍科技

JS逆向字体反爬,某供应商平台反爬实践

梦想橡皮擦

Python 爬虫 8月月更

分布式链路追踪Jaeger + 微服务Pig在Rainbond上的实践分享

北京好雨科技有限公司

开源 Kubernetes 云原生 SpringCloud Jaeger

临床研究方法学,到现场,到数据真实发生的地方 | 对话数智 x 张维拓

ModelWhale

数据分析 人才培养 数据科学 8月月更 临床医学

直播回放含PPT下载|基于Flink & DeepRec构建Online Deep Learning

阿里云大数据AI技术

深度学习

干货丨数学规划视角下的分货优化解题思路

杉数科技

运筹优化 智能分货 供应链计划 仓储优化 门店分货

运维:Centos8安装supervisor守护Nginx进程笔记

天使不哭

#开源 8月月更

SchedulX V1.5.0发布,提供快速压测、对象存储等全新功能!

星汉未来

云原生 k8s IT运维 降本增效 星汉未来

Tapdata 开源项目基础教程:功能特性及实操演示

tapdata

Tapdata 开源社区

什么是 DevOps?看这一篇就够了!

玩转Devop和研发效能DevStream/DevLake

DevOps

leetcode 48. Rotate Image 旋转图像(Medium)

okokabcd

数组 LeetCode 数据结构与算法

2022上半年各银行理财子公司深耕差异化发展,净值型产品数量增加

易观分析

银行 子公司 差异化发展 净值型产品

活动报名:如何高效应对当下的实时场景需求?

tapdata

Tapdata 实时数据

聚焦数据来源、数据质量和模型性能构建小微企业信用画像

易观分析

数据技术 小微企业

技术分享| 小程序实现音视频通话

anyRTC开发者

小程序 uni-app 音视频 语音通话 视频通话

萌宠来袭,如何让“吸猫撸狗”更有保障?

旺链科技

区块链 产业区块链 宠物行业

制作温馨浪漫爱心表白动画特效HTML5+jQuery【附源码】

JavaPub

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型_生成式 AI_李冬梅_InfoQ精选文章