写点什么

15 秒音频即可“复制”原声!但 OpenAI 担心新语音模型被滥用而限制发行

  • 2024-04-02
    北京
  • 本文字数:1790 字

    阅读完需:约 6 分钟

大小:785.47K时长:04:28
15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行

3 月 30 日,OpenAI 在官网首次展示了名为“ Voice Engine ”的语音生成模型,该模型能够通过文本输入和仅仅 15 秒的音频样本生成与原始说话者声音高度相似、充满情感且逼真的自然语言语音。据悉,OpenAI 于 2022 年末首次开发出 Voice Engine,并已将其应用于其文本转语音 API 以及 ChatGPT 语音和朗读功能中的预设语音。


这项技术的问世,显然将对那些经常录制自己语音的人产生重大影响,包括播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业。


不过目前,这项技术仅在小范围内提供,拥有访问权限的公司包括:教育技术公司 Age of Learning、视觉叙事平台 HeyGen、一线健康软件制造商 Dimagi、AI 通信应用程序创建者 Livox 和卫生系统 Lifespan。 OpenAI 在其博客文章中表示:“这些小规模部署有助于为我们的方法、保障措施提供信息,并思考语音引擎如何在各个行业中发挥作用。”


官网文章中,OpenAI 也展示了 Voice Engine 的使用示例。首先,提供英文参考音频:

00:00
00:15


基于该示例,以下是三个 AI 生成的音频剪辑:

00:00
00:06


00:00
00:16


00:00
00:07


可以说,无论从音色,还是从语调、停顿等方面来看,OpenAI 的产出结果都模仿得惟妙惟肖。


OpenAI 目前使用该工具的开发合作伙伴之一,非营利性医疗系统 Lifespan 的诺曼·普林斯神经科学研究所(Norman Prince Neurosciences Institute)正在使用该技术帮助患者“恢复声音”:有一名患者因脑肿瘤失去了清晰说话的能力,该公司通过她早期在学校演讲的录音,“复制”出了她的声音。


这个模型还可以将其生成的音频翻译成不同的语言,使得它对音频业务公司很有用,比如 Spotify Technology SA。Spotify 已经在自己的试点项目中使用了这项技术来翻译 Lex Fridman 等热门主持人的播客。


AI 文本到音频生成是生成式 AI 的一个领域,正在不断发展。目前大多数专注于生成器乐或自然声音,语音生成方面相对较少被接触,部分原因是人们对深度伪造风险的担忧。


造假风险?


与 OpenAI 之前在生成音频内容方面的努力不同,Voice Engine 可以创建听起来很像本人的语音,并具有特定的节奏和语调。软件需要的是 15 秒录制的人说话的音频,以重现他们的声音。


在该工具的演示中,外媒听取了 OpenAI 首席执行官 Sam Altman(萨姆·奥特曼) 的一段视频,他简要解释了这项技术,声音听起来与他的实际演讲没有区别,但完全是人工智能生成的。


“如果你有正确的音频设置,Voice Engine 基本上能生成与本人无异的声音,”OpenAI 的产品负责人 Jeff Harris(杰夫·哈里斯)说。“它的技术质量令人印象深刻。”不过,哈里斯最后补充说:“在真正准确地模仿人类说话的能力方面,显然存在很多安全问题。”


就在不久之前,已经有 AI 技术被用于伪造声音。今年 1 月,一个自称是 Joe Biden(乔·拜登)总统的人打电话鼓励新罕布什尔州的人们不要在初选中投票,声音听起来十分逼真,这一事件在关键的大选之前也引发了人们对 AI 的担忧。


OpenAI 的一位发言人表示,在收到政策制定者、行业专家、教育工作者和创意人员等利益相关者的反馈后,他们决定缩减发布规模。“我们认识到,产生类似于人们声音的言论具有严重的风险,这在选举年尤其重要,” OpenAI 在一篇博客文章中写道。“我们正在与来自政府、媒体、娱乐、教育、公民社会等领域的美国和国际合作伙伴合作,以确保我们在建设过程中采纳他们的反馈。”


据悉,OpenAI 要求合作伙伴同意遵守其使用政策,不使用该模型来冒充个人或组织,且需要获得原始说话者的“知情同意”,并向听众披露这些声音是 AI 生成的。OpenAI 还在音频剪辑中添加了一个听不见的音频水印,使其能够区分一段音频是否是由 Voice Engine 创建的。


在文章的最后,OpenAI 呼吁银行逐步取消语音认证,作为访问银行账户和敏感信息的安全措施。它还呼吁加强对 AI 深度伪造的教育,并更多地开发用于检测音频内容是真实的还是 AI 生成的技术,以应对更先进的 AI 技术带来的挑战。


参考链接:


https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices 


https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model


https://www.bloomberg.com/news/articles/2024-03-29/openai-previews-new-audio-tool-that-can-read-text-mimic-voices?srnd=technology-vp

2024-04-02 09:526550

评论

发布
暂无评论
发现更多内容

CST软件如何理解Axial Ratio轴比

思茂信息

cst cst操作 cst电磁仿真 CST软件 CST Studio Suite

ClkLog埋点系统客户案例-电子签佼佼者「大家签」为何选择ClkLog?

ClkLog

开源 埋点 用户行为分析 自定义标签

智慧人大系统(源码+文档+讲解+演示)

深圳亥时科技

仓储管理系统(源码+文档+讲解+演示)

深圳亥时科技

如何选择适合自己的LED显示屏:参数与选购指南

Dylan

LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

档案管理系统(源码+文档+讲解+演示)

深圳亥时科技

一文读懂!微店商品列表数据接口全指南

tbapi

微店API 微店商品数据采集 微店商品列表接口 关键词搜索微店商品接口

项目管理协作工具对比:PingCode vs Leangoo

axe

项目管理工具 PingCode 办公软件 项目协作工具 leangoo

Hologres Dynamic Table快速入门

阿里云大数据AI技术

云计算 大数据 hologres 动态表

当AI渗透每个角落,效能管理如何变化?

思码逸研发效能

AI 研发管理 研发效能 研发效能管理 AI Agents

《Operating System Concepts》阅读笔记:p408-p448

codists

操作系统

泄密与间谍:网络安全与国家安全的紧密联系

黑龙江陆陆信息测评部

网络安全 等保测评 网络安全信息安全、

AI数字人的开发框架

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI数字人

AI数字人开发的技术难点

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI数字人

Shopify API对接的部署

北京木奇移动技术有限公司

跨境电商 软件外包公司 shopify开发

群晖科技与东芝签署谅解备忘录,加强战略合作伙伴关系

新消费日报

10分钟部署!一文读懂NineData社区版强在哪里?

NineData

数据库、 NineData 对比工具 测评对比 NineData社区版

烧掉 700 亿学费后,中国企业终于懂了:换软件才是真正的省钱

IPD产品研发管理

软件 信创 国产化替代 国产化软件

两连发!文心大模型4.5及X1,上线千帆!

百度Geek说

百度 #大模型

AI数字人的分类及特点

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI数字人

NocoBase 本周更新汇总:优化表格区块的列和操作

NocoBase

开源 低代码 零代码 开发工具 版本更新

得物技术部算法项目管理实践分享

得物技术

#项目管理

大模型推理框架RTP-LLM Embedding技术揭秘

阿里技术

AI数字人的开发流程

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI数字人

智能制造:企业组织发展与IT信息技术发展的关系

积木链小链

数字化转型 信息技术 智能制造

发挥技能优势,实现财务数字转型

智达方通

数字化转型 全面预算管理

司库管理研修班:权威师资齐聚,共探数智转型之道

用友智能财务

AI 财经 会计

通过 INFINI Console 集中管理极限网关配置

极限实验室

console Gateway

如何在Java程序中使用泛型

码语者

Java泛型

《北京日报》点赞!融云助力打造“数字丝路”新范式

融云 RongCloud

Java 24(JDK 24)新特性详细介绍

AiDaddy

#java #java24 #jdk24 #jdk jdk24新特性

15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行_AI&大模型_傅宇琪_InfoQ精选文章