写点什么

OpenAI 版 Her 登场,GPT 能实时视频通话了!德扑 AI 之父:比 o1“更受宠”的模式降临

  • 2024-12-13
    北京
  • 本文字数:1968 字

    阅读完需:约 6 分钟

大小:965.08K时长:05:29
OpenAI版Her登场,GPT能实时视频通话了!德扑AI之父:比 o1“更受宠”的模式降临

整理 |华卫

 

昨天 OpenAI 的风头几乎都被谷歌抢尽了,不少用户都直接站队 Gemini 2.0 ,称其是“GPT-5 级别的威胁”,不仅能生成文字外,还能直接生成图片和语音。更为关键的是,Gemini 2.0 供全球用户使用,而且有专门的实验版模型对所有开发者免费开放。

 

今天,OpenAI 就带来了高级语音模式的功能更新:实时视频通话、屏幕共享和图像上传。即日起,这三项功能将在接下来几天内向所有 Team、以及大多数 ChatGPT Plus 和 Pro 用户推出(欧盟、瑞士、冰岛、挪威和列支敦士登的用户除外),Enterprise 和 Edu 用户将在明年 1 月获得访问权限。其中,屏幕共享和图片上传仅在 iOS 和 Android 移动应用程序的高级语音模式中推出。

 

现在 ChatGPT 可以“看到和听到”

高级语音模式在去年发布的 GPT-4o 中已经预览过,但只有音频模式是实时的。现在,用户可以使用手机摄像头与 ChatGPT 聊天,大模型将会 “看到 ”你所看到的一切,包括你的手机屏幕。

 

进行实时视频通话功能的演示时,OpenAI 的首席产品官 Kevin Weil 首先牵头测试了一番 ChatGPT 的“记忆”能力。在 OpenAI 的团队成员依次与 ChatGPT 视频打过招呼并有了一定的认识后,Weil 要求它回忆各位成员的特征并说出相应的姓名。

 

接下来, Weil 又和其他 OpenAI 团队成员演示了 ChatGPT 协助如何制作手冲咖啡:通过将摄像机对准动作,AVM 展示了它对咖啡机原理的理解,并引导提问者完成咖啡的整个冲泡过程。并且,在整个演示过程中,ChatGPT Advanced Voice 保持了自然而亲切的声音,还调整了它的语气,甚至像人类一样大笑。

 

有网友开玩笑道,“下一步 GPT 该指导人做饭了。”还有网友表示,“Her 正在慢慢成为现实”,“如果这不是 AGI,我不知道什么是。”

 


该团队还展示了 ChatGPT 如何理解上传的屏幕截图,这对于需要 ChatGPT 提供技术支持或协助处理屏幕内容的情况非常有用。当选择 “共享屏幕 ”时,会弹出手机的屏幕共享选项,允许用户将屏幕广播给 ChatGPT;开始屏幕共享后,再次按下屏幕共享按钮即可停止与 ChatGPT 共享屏幕。

 

同时,OpenAI 官方提醒到,ChatGPT 可能会自动响应用户从相机或屏幕上分享的内容。此外,在用户停止分享后,ChatGPT 可能仍会引用其之前在对话中分享的内容。但 OpenAI 保证,除非用户启用了“为每个人改进模型”,否则他们不会使用对话中上传的音频或视频片段来训练大模型。

 

比 o1“更受欢迎”的模式来了?

高级语音模式基于原生多模态 GPT-4o 模型,可以直接接收和输出音频,提供更自然的对话节奏和情感表达。OpenAI 首席技术官 Muri Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但改进了 GPT-4 在文本、视觉以及音频方面的能力。

 

据介绍,高级语音模式支持超过 50 种语言,9 种逼真输出语音选项,且每种语音都有自己独特的语气和特征。而其背后的 GPT-4o 不仅可以将语音转换为文本,还可以理解和标记音频的其他功能,例如呼吸和情感。

 

在圣诞节期间,OpenAI 还新增了 Santa Mode(圣诞模式),用户可以在 ChatGPT 中与圣诞老人的声音进行实时互动,支持移动应用、桌面应用和网页版。用户通过点击现在 ChatGPT 主屏幕上的雪花图标,或者在设置页面中找到并选择圣诞老人,就你可以向圣诞老人询问关于圣诞节的问题。

 

为了让更多用户体验与圣诞老人对话的功能,首次与圣诞老人进行高级语音对话的用户,其高级语音使用额度将被重置一次。即使你当天的或本月的使用额度已用完,也可以立即与圣诞老人进行语音对话。超出重置后的额度后,用户也可以通过文字方式与圣诞老人聊天。

 

OpenAI 高级研究科学家、德扑 AI 之父 Noam Brown 称,“我完全相信圣诞老人模式会比 o1 吸引来更多的订阅用户。”



结语

OpenAI 直播第六天,CEO Sam Altman 并没有出现,而是由包括 OpenAI 的首席产品官 Kevin Weil、OpenAI 产品经理 Jackie Shannon、负责多模态的 OpenAI 技术团队成员 Michelle Qin 和 Rowan Zellers 在内的四位员工来介绍了更新的功能。

 

其中,Michelle Qin 是唯一的华人,入职 OpenAI 六个月。根据其个人主页的介绍,Michelle Qin 是斯坦福大学理学士和硕士毕业生,主修人工智能领域的计算机科学。此前曾有过在苹果和 Pika 工作的经历。

 

然而,OpenAI 第六天的更新也迎来一波网友的吐槽。有网友评价,这次的更新很“无聊”,或许明天会“很疯狂”。也有网友认为,“这只是 Sora 上映后的一个 ‘降温 ’功能。”




还有网友表示,“谷歌在正式发布之前就向用户发布了 Gemini 2,并且从一开始就提供实时语音和视频聊天,OpenAI 却在发布后花了将近半年的时间才推出。”



值得一提的是,就在昨天下午,ChatGPT 还突然宕机了近 4 个小时,就连新发布的 Sora 也未能幸免。ChatGPT 宕机之时,众多用户都直呼“全球学术停摆了”。而这已经不是 ChatGPT 第一次发生这样的情况,上个月 ChatGPT 瘫痪了 30 分钟,今年 6 月的宕机甚至持续了 5 小时以上。

 

参考链接:

https://help.openai.com/en/articles/8400625-voice-mode-faq

2024-12-13 08:007732

评论

发布
暂无评论
发现更多内容

金蝶发布2022年财报,云业务收入连续三年增长超30%

科技热闻

GPT-4:不了不了,这些我还做不到

禅道项目管理

GPT ChatGPT GPT-4

活动报名 | 博睿数据高阶行业沙龙保险专场启动报名!

博睿数据

智能运维 博睿数据 保险行业

NutUI-React 京东移动端组件库 2月份上新!欢迎使用!

京东科技开发者

前端 React 组件库 开源组件 企业号 3 月 PK 榜

从 3 个层级出发,做好 DevSecOps“安全左移”经济账

极狐GitLab

DevOps DevSecOps 代码安全 极狐GitLab 安全左移

面试官:怎么给详情页做性能优化的?

程序知音

一个由public关键字引发的bug

小小怪下士

Java 程序员 后端

行云管家堡垒机六大功能详细介绍看这里!

行云管家

互联网 网络安全 堡垒机

第三方私有云管理平台选择哪家好?理由有哪些?

行云管家

云计算 私有云 云管平台 云管理

数据库开发工具界的ChatGPT来了

NineData

数据库 sql AI ChatGPT NineData

PyTorch深度学习实战 | 基于RNN的文本分类

TiAmo

CNN PyTorch

研发效能负责人/研发效能1号位 |DevOps负责人

laofo

DevOps cicd 研发效能 工程效能 工程效率

Mac电脑照片编辑修图软件精选

Rose

修图 抠图 图片编辑 苹果mac软件 macOS系统

如何改变Mac观看Netflix奈飞时的字幕样式?

Rose

Mac软件 奈飞客户端 网飞字幕

对话 Fork 创始人:帮云服务厂商精准获客,我们是如何做到的?

万事ONES

云计算 研发管理 研发管理工具

扩散模型的通用指导手册

Zilliz

影响LED显示屏清晰度的三大要素

Dylan

广告 LED显示屏 体育

难以置信!四面斩获字节offer,全靠这份“算法最优解”宝典

Java 数据结构 面试 算法 LeetCode

Matlab常用图像处理命令108例(六)

timerring

图像处理

从头到尾学习一个完整 SLAM 项目

博文视点Broadview

App Store 2022年度app推荐: MacFamilyTree 10 最好的家族谱软件

Rose

MacFamilyTree 家族谱软件 苹果软件精选

系统架构设计:进程缓存和缓存服务,如何抉择?

Java 架构设计 缓存服务 进程缓存

fastposter v2.13.0 一分钟完成开发海报 [云服务来袭]

物有本末

fastposter 海报生成 Java绘制图片 python开发海报

mkv格式怎么在mac电脑播放,mac上5款必备的视频播放器

Rose

视频播放器 MKV 苹果mac软件

联邦学习开源框架FATE架构

京东科技开发者

人工智能 机器学习 联邦学习 FATE 企业号 3 月 PK 榜

超越想象,博睿数据3D数字展厅上线

博睿数据

可观测性 智能运维 博睿数据 3D展厅

好用的油猴Safari浏览器插件:Tampermonkey 中文版

真大的脸盆

Mac 油猴 油猴插件 脚本管理 脚本插件

三天吃透操作系统面试八股文

程序员大彬

Java 面试 操作系统

2023年中建信息&超聚变核心生态伙伴高峰论坛成功举办

极客天地

Star History 月度开源精选|2023 年 2 月

Bytebase

GitHub 开源项目 OpenKruise

基于Pub/Sub模式的阿里云IoT同步调用详解——设备管理运维类

阿里云AIoT

物联网 API

OpenAI版Her登场,GPT能实时视频通话了!德扑AI之父:比 o1“更受宠”的模式降临_生成式 AI_华卫_InfoQ精选文章