10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型

  • 2024-05-14
    北京
  • 本文字数:2433 字

    阅读完需:约 8 分钟

大小:1.20M时长:07:00
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型

上周,关于 OpenAI 即将发布重大更新的报道层出不穷。有报道称,ChatGPT 制造商 OpenAI 计划通过推出 Google 搜索的竞争对手来增强聊天机器人的功能并开拓新市场。报道还称,这款新搜索产品可能会在 5 月 13 日 Google I/O 大会前一天发布。不过 Altman 否认了此类传言。


甚至还顺势在 X 上的一篇帖子中写道,“不是 GPT-5,也不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。”



就在刚刚,OpenAI 官宣了 Altman 口中的“就像魔法一样”的东西。

OpenAI 官宣旗舰款模型 GPT-4o,完全免费

在发布会刚开始,OpenAI 就发布了一款名为 GPT-4o 的新旗舰生成式人工智能模型,该模型将在未来几周内在公司的产品中“迭代”推出。


OpenAI 首席技术官 Muri Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但改进了 GPT-4 在文本、视觉以及音频方面的能力。



“GPT-4o 通过语音、文本和视觉进行推理,”Murati 在 OpenAI 办公室的主题演讲中说道。为了让其更加智能,OpenAI 团队在语音模式背后添加了新技术,人们可以用麦克风与 ChatGPT 交谈。


OpenAI 之前的领先模型 GPT-4 接受了图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像内容等任务。


GPT-4o 不仅可以将语音转换为文本,还可以理解和标记音频的其他功能,例如呼吸和情感。此外,GPT-4o 具有先进的音频理解能力,并且可以控制其声音(听起来像机器人、声音兴奋、舒缓等)。


虽然这背后的更多技术细节没有公布出来,但 OpenAI 表示,现在 GPT-4o 在 50 种语言中的速度更快,也许使用的技术与他们在 GPT-4 上加速日语的技术相同。借助 GPT-4o/ChatGPT 桌面应用程序,用户可以有个编程伙伴一起交谈,并看到您所看到的内容。


此外,OpenAI 正在发布 ChatGPT 的桌面版本和更新的 UI。


OpenAI 研究员 William Fedus 表示,“GPT-4o 是我们最先进的新前沿模型。我们一直在 LMSys arena 上测试一个版本 im-also-a-good-gpt2-chatbot。”



“这不仅是世界上最好的模型,而且可以在 ChatGPT 中免费使用,这对于前沿模型来说是前所未有的。” Fedus 补充道,“我们发现在更难的提示集上——特别是编码——存在更大的差距:GPT-4o 比我们之前的最佳模型实现了 +100 ELO。”



奥特曼在推特里也表示,“GPT-4o 是我们最好的模型。”



另外,在 API 中,GPT-4o 的价格是 GPT-4-turbo 的一半,速度是 GPT-4-turbo 的两倍、5 倍速率限制。


通常,当 OpenAI 宣布其 ChatGPT 模型的新版本时,都会对特定付费用户开放。然而,此次是个例外,该公司已决定允许所有人使用这项新技术。

GPT-4o 可以像人类一样与你交谈,还能解方程式

一直以来,OpenAI 希望与 ChatGPT 交谈就像与真人交谈一样,但遗憾的是之前 ChatGPT 的反馈总是有些延迟,这就破坏了交谈的沉浸感。现在,该公司正在 GPT-4o 背后添加新技术,以使与聊天机器人的对话速度更快。


为了展示这一点,OpenAI 使用语音与 GPT-4o 进行了对话演示。GPT-4o 不仅在演示者结束讲话后几乎立即做出响应,而且还通过文本转语音进行响应,让您感觉就像在与某人实时交谈。在演示过程中,GPT-4o 指导演示者 Mark Chen 如何更好地呼吸;包括采集他的呼吸音频样本,并为他提供如何做得更好的建议。


另一位演示者展示了 GPT-4o 在提示“机器人和爱”的情况下讲睡前故事。故事进行到一半时,OpenAI 开发人员 Mark Chen 介入并要求 GPT-4o 调整它说话时的情绪。果然,GPT-4o 可以根据要求改变声音,从过于戏剧化的表演到冷漠、机械的语气。最后,他们展示了 GPT-4o 的一些歌唱能力来完善这个故事。



此外,此次发布会上演示者们还展示了 GPT-4o 在数学方面的“才能”。演示者写出了一个方程式并通过手机摄像头展示了 GPT-4o。它被指示帮助解决问题,但不泄露答案。果然,GPT-4o 指导演示者完成了求解简单方程的过程,几乎扮演了教师的角色。另外,它甚至还回答了典型的“我什么时候才能在现实生活中使用它?”问题,解释二次方程如何帮助我们完成日常任务。


演示者还使用桌面版 GPT-4o 来检查他们拥有的一些代码。GPT-4o 不仅可以解释代码的作用,还可以告诉您如果调整代码的特定部分会发生什么。

此前猜测全部落空

AIGC 赛道过去一年“卷疯了”似乎成为了业界共识,众多公司推出了自己的 AI 聊天机器人,谷歌的 Gemini、Anthropic 的 Claude 和 X 的 GrokAI 等竞争对手都在从 OpenAI 这里抢走更多关注。



这次发布会之前,网上对 OpenAI 的发布内容充满猜测:Abacus.AI CEO 猜测,新的 Siri 将来自 OpenAI,更具体地,有网友表示是 ChatGPT iOS 中的对话模式;英伟达高级人工智能研究科学家 Jim Fan 表示,“预计 OpenAI 明天将演示实时语音助手。”;有网友说是“Google 级别的抓取和每日模型更新”。


还有网友 Ananay 表示“OpenAI 似乎正在致力于在 ChatGPT 内进行电话通话,或者至少提供某种程度的实时通信,而不仅仅是文本。这可能只是周一宣布的活动的一小部分。”他甚至表示,“OpenAI 现在已经部署了 webRTC 服务器来实现这一点,并且最近配置了这些服务器。”


这是一个开源项目,用于在应用程序内提供实时通信 - 例如语音和视频会议。这可能是 ChatGPT 代理行为的一部分。有了这个,你就可以向人工智能发出指令,让它启动并代表你执行操作——给予它呼叫访问权限可以让它打电话预约或处理来电,而无需你参与。



Altman:每年烧掉 500 亿美元我都不在乎

值得注意的是,Sam Altman 最近在接受媒体采访时表示,他将不惜一切代价致力于构建通用人工智能 (AGI)。在与斯坦福大学的学生互动时,Altman 表示,开发 AGI 的任何成本都是合理的。


据《财富》杂志报道,他表示:“OpenAI 可能有比我更有商业头脑的人担心我们的支出,但我并不这么认为。”


“无论我们每年烧掉 5 亿美元、50 亿美元还是 500 亿美元,我都不在乎,我真的不在乎,只要我们能保持在一条轨道上,我认为最终我们会为社会创造比这更多的价值,只要我们能找到一种方法来支付账单,就像我们制造通用人工智能一样,这将是昂贵的,但完全值得,”他补充道。

2024-05-14 02:357562
用户头像
李冬梅 加V:busulishang4668

发布了 1137 篇内容, 共 758.3 次阅读, 收获喜欢 1276 次。

关注

评论

发布
暂无评论
发现更多内容

计算机的时钟(一):NTP协议

ElvinYang

刘华:上云还是不上云,这是一个问题

刘华Kenneth

架构 敏捷

无价值人生记录.0:浪费1000%时间去做一个用来节省1%时间的“轮子玩具”(上:因缘)

八苦-瞿昙

C# 程序员 随笔 随笔杂谈 aop

架构师必须知道的架构知识

架构 架构师 Architecture Architect

如何基于 BitMap 进行海量数据分析

GrowingIO技术专栏

互联网 数据分析 科技互联网 数据化

图说前端-使用Atomics避免SharedArrayBuffers中的race conditions(3/3)

梦见君笑

大前端 内存管理

不会有人还不知道全文检索工具Lucene怎么用吧?文字长文教程

给你买橘子

Java 搜索引擎 lucene 程序员 开发工具

如果你想写自己的Benchmark框架

程序那些事

JVM 性能调优 GC benchmark

如何搭建一个HBase集群

Rayjun

HBase

图说前端-内存管理(1/3)

梦见君笑

大前端 内存

图说前端-ArrayBuffers 和 SharedArrayBuffers(2/3)

梦见君笑

大前端 内存管理

那些让程序员目瞪口呆的Bug

Java小咖秀

程序员 bug

redis系列之——Redis为什么这么快?

诸葛小猿

Java redis 程序员

基于Kubernetes实现的大数据采集与存储实践总结

岿然独存5

Docker Kubernetes S3 EFK Fluentd

java 后端博客系统文章系统——No3

猿灯塔

计算机操作系统基础(十七)---进程同步之Unix域套接字

书旅

php laravel 线程 操作系统 进程

《精益思想》读后感分享

zhongzhq

高效工作 精益 精益思想 精益生产方式

玩转Redis高可用 - 哨兵(Sentinel)模式

Man

高可用 redis高可用 中间件

使用 Dockerfile 创建镜像 | Docker 系列

AlwaysBeta

Docker 容器 镜像 Dockerfile

ARTS 打卡 第2周

Scotty

分布式系统的一些基础理论

俊俊哥

分布式事务 CAP Base

redis里的数据结构

流沙

redis

架构师训练营第六周作业

张明森

猿灯塔:spring Boot Starter开发及源码刨析(三)

猿灯塔

Java 猿灯塔

DOM 树的构建

法正

html 大前端 DOM

给 Spring Boot 项目减减肥!18.18M 到 0.18M 是如何做到的?

给你买橘子

Java 程序员 Spring Cloud 编码 SpringBoot 2

游戏夜读 | 如何分析游戏体验?

game1night

RESTful 架构及实践

Geek_z9ygea

Java 大前端 RESTf

图解:深度优先搜索与广度优先搜索

淡蓝色

Java 数据结构 算法

啃碎并发(九):内存模型之基础概述

猿灯塔

Java 猿灯塔

Java 线程的生老病死

武培轩

Java 线程 多线程 并发 线程状态

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型_生成式 AI_李冬梅_InfoQ精选文章