写点什么

15 秒音频即可“复制”原声!但 OpenAI 担心新语音模型被滥用而限制发行

  • 2024-04-02
    北京
  • 本文字数:1790 字

    阅读完需:约 6 分钟

大小:785.47K时长:04:28
15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行

3 月 30 日,OpenAI 在官网首次展示了名为“ Voice Engine ”的语音生成模型,该模型能够通过文本输入和仅仅 15 秒的音频样本生成与原始说话者声音高度相似、充满情感且逼真的自然语言语音。据悉,OpenAI 于 2022 年末首次开发出 Voice Engine,并已将其应用于其文本转语音 API 以及 ChatGPT 语音和朗读功能中的预设语音。


这项技术的问世,显然将对那些经常录制自己语音的人产生重大影响,包括播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业。


不过目前,这项技术仅在小范围内提供,拥有访问权限的公司包括:教育技术公司 Age of Learning、视觉叙事平台 HeyGen、一线健康软件制造商 Dimagi、AI 通信应用程序创建者 Livox 和卫生系统 Lifespan。 OpenAI 在其博客文章中表示:“这些小规模部署有助于为我们的方法、保障措施提供信息,并思考语音引擎如何在各个行业中发挥作用。”


官网文章中,OpenAI 也展示了 Voice Engine 的使用示例。首先,提供英文参考音频:

00:00
00:15


基于该示例,以下是三个 AI 生成的音频剪辑:

00:00
00:06


00:00
00:16


00:00
00:07


可以说,无论从音色,还是从语调、停顿等方面来看,OpenAI 的产出结果都模仿得惟妙惟肖。


OpenAI 目前使用该工具的开发合作伙伴之一,非营利性医疗系统 Lifespan 的诺曼·普林斯神经科学研究所(Norman Prince Neurosciences Institute)正在使用该技术帮助患者“恢复声音”:有一名患者因脑肿瘤失去了清晰说话的能力,该公司通过她早期在学校演讲的录音,“复制”出了她的声音。


这个模型还可以将其生成的音频翻译成不同的语言,使得它对音频业务公司很有用,比如 Spotify Technology SA。Spotify 已经在自己的试点项目中使用了这项技术来翻译 Lex Fridman 等热门主持人的播客。


AI 文本到音频生成是生成式 AI 的一个领域,正在不断发展。目前大多数专注于生成器乐或自然声音,语音生成方面相对较少被接触,部分原因是人们对深度伪造风险的担忧。


造假风险?


与 OpenAI 之前在生成音频内容方面的努力不同,Voice Engine 可以创建听起来很像本人的语音,并具有特定的节奏和语调。软件需要的是 15 秒录制的人说话的音频,以重现他们的声音。


在该工具的演示中,外媒听取了 OpenAI 首席执行官 Sam Altman(萨姆·奥特曼) 的一段视频,他简要解释了这项技术,声音听起来与他的实际演讲没有区别,但完全是人工智能生成的。


“如果你有正确的音频设置,Voice Engine 基本上能生成与本人无异的声音,”OpenAI 的产品负责人 Jeff Harris(杰夫·哈里斯)说。“它的技术质量令人印象深刻。”不过,哈里斯最后补充说:“在真正准确地模仿人类说话的能力方面,显然存在很多安全问题。”


就在不久之前,已经有 AI 技术被用于伪造声音。今年 1 月,一个自称是 Joe Biden(乔·拜登)总统的人打电话鼓励新罕布什尔州的人们不要在初选中投票,声音听起来十分逼真,这一事件在关键的大选之前也引发了人们对 AI 的担忧。


OpenAI 的一位发言人表示,在收到政策制定者、行业专家、教育工作者和创意人员等利益相关者的反馈后,他们决定缩减发布规模。“我们认识到,产生类似于人们声音的言论具有严重的风险,这在选举年尤其重要,” OpenAI 在一篇博客文章中写道。“我们正在与来自政府、媒体、娱乐、教育、公民社会等领域的美国和国际合作伙伴合作,以确保我们在建设过程中采纳他们的反馈。”


据悉,OpenAI 要求合作伙伴同意遵守其使用政策,不使用该模型来冒充个人或组织,且需要获得原始说话者的“知情同意”,并向听众披露这些声音是 AI 生成的。OpenAI 还在音频剪辑中添加了一个听不见的音频水印,使其能够区分一段音频是否是由 Voice Engine 创建的。


在文章的最后,OpenAI 呼吁银行逐步取消语音认证,作为访问银行账户和敏感信息的安全措施。它还呼吁加强对 AI 深度伪造的教育,并更多地开发用于检测音频内容是真实的还是 AI 生成的技术,以应对更先进的 AI 技术带来的挑战。


参考链接:


https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices 


https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model


https://www.bloomberg.com/news/articles/2024-03-29/openai-previews-new-audio-tool-that-can-read-text-mimic-voices?srnd=technology-vp

2024-04-02 09:527094

评论

发布
暂无评论
发现更多内容

王者荣耀商城异地多活架构设计

Geek_e5f2e5

低代码生成器 | 放开双手,专注业务,一键生成项目基础结构 + 重复代码

IT学习日记

开源项目 脚手架 代码自动生成 自动搭建项目

BI工具数据看板对比:瓴羊Quick BI与Smart BI

流量猫猫头

ChatGPT 是真的银弹吗? | 社区征文

宇宙之一粟

Go 思考 后端 征文投稿 ChatGPT

拆分电商系统为微服务

Geek_e5f2e5

软件测试/测试开发 | 测试平台开发-前端开发之Vue router路由设计

测试人

软件测试 测试开发 测试平台

架构训练营-模块六作业

Sam

架构实战营

SkyWalking实现 Dubbo 微服务实现链路跟踪案例以及对接钉钉告警

忙着长大#

极客时间

浅谈基于Web的跨平台桌面应用开发

京东科技开发者

Web 跨平台 nodejs 桌面端 企业号 3 月 PK 榜

下一站,冠军|走进2022 OceanBase数据库大赛12强

OceanBase 数据库

数据库 oceanbase

OpenKruise 开发者不容错过的带薪实习机会!马上加入 LFX Mentorship 计划

阿里巴巴中间件

阿里云 开源 云原生 OpenKruise

2022 IoTDB Summit:阿里白渐《迈向物联网时代大数据计算平台——MaxCompute 基于IoTDB构建解决方案》

Apache IoTDB

大数据 时序数据库 IoTDB

Matlab实现图像压缩

timerring

图像处理 图像压缩

我,30岁程序员被裁员了,千万别干全栈

程序员晚枫

程序员 裁员 大龄求职

隐私计算技术路线介绍及对比

隐语SecretFlow

隐私计算

使用 Pulumi 打造自己的多云管理平台

亚马逊云科技 (Amazon Web Services)

Amazon S3

BaseAdapter优化

芯动大师

ConversionService baseadapter viewholder

WindowsGUI自动化测试框架搭建之需求整理、详细设计和框架设计

Python 自动化测试 测试框架 WindowsGUI UIaotumation

RISC-V SIG 创建专属邮件列表和论坛板块

openEuler

Linux 操作系统 openEuler risc-v

纵存科技加入龙蜥社区,共建高性能存储软件栈

OpenAnolis小助手

开源 合作伙伴 龙蜥社区 CLA 纵存科技

三天吃透mybatis面试八股文

程序员大彬

Java mybatis

「Go框架」平滑关闭:要关闭服务,未处理完的请求怎么办?

Go学堂

golang 个人提升 平滑重启 程序员、 gin框架

设计消息队列存储消息数据的 MySQL 表格

Geek_e5f2e5

更高效、更实用的跨端开发选择

FinFish

flutter finclip 小程序容器 跨端框架

「Go工具箱」Pie :一个高性能、类型安全的slice操作库

Go学堂

golang 开源 程序员 个人成长

软件测试/测试开发 | 测试平台开发-前端开发之Vue.js 框架的使用

测试人

微服务引擎 MSE 企业版全新升级

阿里巴巴中间件

阿里云 微服务 云原生

2022年证券行业年度专题分析

易观分析

金融 证券 经济

15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行_AI&大模型_傅宇琪_InfoQ精选文章