写点什么

15 秒音频即可“复制”原声!但 OpenAI 担心新语音模型被滥用而限制发行

  • 2024-04-02
    北京
  • 本文字数:1790 字

    阅读完需:约 6 分钟

大小:785.47K时长:04:28
15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行

3 月 30 日,OpenAI 在官网首次展示了名为“ Voice Engine ”的语音生成模型,该模型能够通过文本输入和仅仅 15 秒的音频样本生成与原始说话者声音高度相似、充满情感且逼真的自然语言语音。据悉,OpenAI 于 2022 年末首次开发出 Voice Engine,并已将其应用于其文本转语音 API 以及 ChatGPT 语音和朗读功能中的预设语音。


这项技术的问世,显然将对那些经常录制自己语音的人产生重大影响,包括播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业。


不过目前,这项技术仅在小范围内提供,拥有访问权限的公司包括:教育技术公司 Age of Learning、视觉叙事平台 HeyGen、一线健康软件制造商 Dimagi、AI 通信应用程序创建者 Livox 和卫生系统 Lifespan。 OpenAI 在其博客文章中表示:“这些小规模部署有助于为我们的方法、保障措施提供信息,并思考语音引擎如何在各个行业中发挥作用。”


官网文章中,OpenAI 也展示了 Voice Engine 的使用示例。首先,提供英文参考音频:

00:00
00:15


基于该示例,以下是三个 AI 生成的音频剪辑:

00:00
00:06


00:00
00:16


00:00
00:07


可以说,无论从音色,还是从语调、停顿等方面来看,OpenAI 的产出结果都模仿得惟妙惟肖。


OpenAI 目前使用该工具的开发合作伙伴之一,非营利性医疗系统 Lifespan 的诺曼·普林斯神经科学研究所(Norman Prince Neurosciences Institute)正在使用该技术帮助患者“恢复声音”:有一名患者因脑肿瘤失去了清晰说话的能力,该公司通过她早期在学校演讲的录音,“复制”出了她的声音。


这个模型还可以将其生成的音频翻译成不同的语言,使得它对音频业务公司很有用,比如 Spotify Technology SA。Spotify 已经在自己的试点项目中使用了这项技术来翻译 Lex Fridman 等热门主持人的播客。


AI 文本到音频生成是生成式 AI 的一个领域,正在不断发展。目前大多数专注于生成器乐或自然声音,语音生成方面相对较少被接触,部分原因是人们对深度伪造风险的担忧。


造假风险?


与 OpenAI 之前在生成音频内容方面的努力不同,Voice Engine 可以创建听起来很像本人的语音,并具有特定的节奏和语调。软件需要的是 15 秒录制的人说话的音频,以重现他们的声音。


在该工具的演示中,外媒听取了 OpenAI 首席执行官 Sam Altman(萨姆·奥特曼) 的一段视频,他简要解释了这项技术,声音听起来与他的实际演讲没有区别,但完全是人工智能生成的。


“如果你有正确的音频设置,Voice Engine 基本上能生成与本人无异的声音,”OpenAI 的产品负责人 Jeff Harris(杰夫·哈里斯)说。“它的技术质量令人印象深刻。”不过,哈里斯最后补充说:“在真正准确地模仿人类说话的能力方面,显然存在很多安全问题。”


就在不久之前,已经有 AI 技术被用于伪造声音。今年 1 月,一个自称是 Joe Biden(乔·拜登)总统的人打电话鼓励新罕布什尔州的人们不要在初选中投票,声音听起来十分逼真,这一事件在关键的大选之前也引发了人们对 AI 的担忧。


OpenAI 的一位发言人表示,在收到政策制定者、行业专家、教育工作者和创意人员等利益相关者的反馈后,他们决定缩减发布规模。“我们认识到,产生类似于人们声音的言论具有严重的风险,这在选举年尤其重要,” OpenAI 在一篇博客文章中写道。“我们正在与来自政府、媒体、娱乐、教育、公民社会等领域的美国和国际合作伙伴合作,以确保我们在建设过程中采纳他们的反馈。”


据悉,OpenAI 要求合作伙伴同意遵守其使用政策,不使用该模型来冒充个人或组织,且需要获得原始说话者的“知情同意”,并向听众披露这些声音是 AI 生成的。OpenAI 还在音频剪辑中添加了一个听不见的音频水印,使其能够区分一段音频是否是由 Voice Engine 创建的。


在文章的最后,OpenAI 呼吁银行逐步取消语音认证,作为访问银行账户和敏感信息的安全措施。它还呼吁加强对 AI 深度伪造的教育,并更多地开发用于检测音频内容是真实的还是 AI 生成的技术,以应对更先进的 AI 技术带来的挑战。


参考链接:


https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices 


https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model


https://www.bloomberg.com/news/articles/2024-03-29/openai-previews-new-audio-tool-that-can-read-text-mimic-voices?srnd=technology-vp

2024-04-02 09:526475

评论

发布
暂无评论
发现更多内容

财务规划技术与思维的碰撞

智达方通

企业管理 全面预算管理 财务规划

陶建辉被授予 2024 年“中国计算机学会(CCF)杰出工程师奖”,TDengine 技术创新力再获肯定

TDengine

数据库 tdengine 时序数据库

数据资产管理实施路径盘点,一文读懂如何建设企业数据资产管理体系

袋鼠云数栈

ETLCloud携手ClickHouse:高效的数据查询效率

RestCloud

数据库 数据处理 ETL 数据集成 Click house

Mac苹果电脑视频下载软件推荐:Downie 4 for Mac 激活版

你的猪会飞吗

Downie 4 下载 Downie 4 Mac版 Downie 4 for mac

七猫如何用 StarRocks 打造用户增长新引擎?

StarRocks

大模型还能产生幻觉?一文讲清楚原理和解决方法

敏捷开发

AI AIGC GPT LLM 大模型幻觉

基于 LangChain 的自动化测试用例的生成与执行

霍格沃兹测试开发学社

IT外包在不同行业的应用案例

Ogcloud

IT外包 IT外包公司 IT外包服务 IT外包企业 IT外包服务商

望繁信科技携手甫瀚咨询共建流程挖掘产业生态

望繁信科技

数字化转型 业务流程管理 流程挖掘 流程资产 流程智能

OpenAI为高级语音模式添加五种声音,已正式推出!华为发布业界首个L4自动驾驶网络|AI日报

可信AI进展

技术分享丨实现跨区域虚拟专用网络互联

伊克罗德信息科技

虚拟专用网络

《阿凡达》导演卡梅隆加入 Stability AI 董事会;Molmo 横空出世,开源多模态模型王座易位丨 RTE 开发者日报

声网

mac电脑安卓设备文件传输助手:MacDroid pro for mac 特别版

你的猪会飞吗

mac软件下载 Mac破解软件 MacDroid pro

宇叠科技推出UDCAP VR手套:众筹数百万,开启虚拟交互新纪元

新消费日报

基于 LangChain 的自动化测试用例的生成与执行

测试人

软件测试

三大硬核方式揭秘:Java如何与底层硬件和工业设备轻松通信!

不在线第一只蜗牛

Java Python

观测云链路追踪分析最佳实践

观测云

链路追踪

仅需6步,实现虚拟物体在现实世界的精准放置

不在线第一只蜗牛

人工智能 HarmonyOS

云桌面 + 数字人:开启直播新纪元

Finovy Cloud

技术干货|热门仿真平台HyperMesh CFD功能详解:几何和网格(Part 1)

Altair RapidMiner

人工智能 智能制造 altair Hypermesh 仿真设计

想要激活孩子潜在力量,家长必做的一件事

心大陆多智能体

智能体 AI大模型 心理健康 数字心理

写不好代码注释?这份注释指南一定要收好!

敏捷开发

程序员 敏捷开发 软件开发 代码注释 代码规范

等等,谁说我们小公司不能用IPD?

敏捷开发

项目管理 敏捷开发 IPD 集成产品开发体系

AI Market创新升级:独立运营与全球首创交易模式同步亮相

科技热闻

山丹县综能智慧新能源:“智能二维码”,推动班组管理信息化

草料二维码

草料二维码

百度输入法AI请求次数累计超4亿,「超会写」全新升级

极客天地

Golang优雅关闭gRPC实践

俞凡

golang

如何评估和观测 IoTDB 所需的网络带宽?

Apache IoTDB

15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行_AI&大模型_傅宇琪_InfoQ精选文章