写点什么

发布即被山寨?字节跳动推出语音生成模型数小时后就被“盗版”,作者直呼离谱!

  • 2024-06-11
    北京
  • 本文字数:2436 字

    阅读完需:约 8 分钟

大小:1.15M时长:06:41
发布即被山寨?字节跳动推出语音生成模型数小时后就被“盗版”,作者直呼离谱!

近日,被称为 GPT-4o 平替的 ChatTTS 文本转语音开源项目爆火。没多久,字节跳动也推出了自己的语音生成模型 Seed-TTS,能生成与人类语音几乎没有区别的语音,支持多种语言包括英语、中文,能够进行同语言生成和跨语言生成。

 

不过让人没想到的是,6 月 4 日,字节刚公开发布相关论文后,市面上立马就出现了不止一个山寨 Seed-TTS 的网站,而其中部分山寨网站实际项目套壳了 ChatTTS。目前,AI 前线至少发现了三个山寨网站,分别是:

 

http://seed-tts.com

http://seedtts.com

https://seedtts.ai/

 

其中,最后一个网站曾直接 link 到了 ChatTTS 开源仓库。



不过截至本文成稿时,https://seedtts.ai/ 网站已经增加了“非字节跳动官方网站”的文字说明,并且点击跳转打开的页面也注明了可以尝试使用 ChatTTS 项目。

 


下面是网友爆料的域名注册信息:




“这世界真是离谱,技术报告才发表了一天,山寨 Seed-TTS 的网站就出现了。 套壳 ChatTTS 说是 Seed-TTS。”字节跳动 Seed-TTS 作者之一的陈卓表示。

 

陈卓明确道,考虑到安全问题,Seed-TTS 模型不会开源,但是团队提供了一些评测数据集和测量工具作为 benchmark 使用。

 

另外让陈卓比较气愤的点是,山寨的人同时还在推特上宣传 Seed-TTS 就是 ChatTTS 的套壳。他表示,目前这件事已经上升到了公司的法务部门。

Seed-TTS 效果这么好?

 

会被迅速山寨,那肯定是实现了不错的效果。我们先看下官方给出的示例,这是不同情绪下的声音效果:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    这是根据文字生成的声音效果:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      零样本上下文学习的声音效果:

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        跨语言内容创作能力:

        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          Seed-TTS 一经推出就收到了网友们的好评,StabilityAI 研究员 Tanishq Mathew Abraham 也转发了其论文。不过也有网友表示需要自己上手,担心被官方展示欺骗。

           

          不过,Seed-TTS 目前只提供了技术论文和官方 Demo,暂未开放使用地址。对此,陈卓表示,希望体验 Seed-TTS 的用户可以使用字节语音技术支持的各个产品,比如抖音、剪映等,Seed-TTS 都会逐渐提供支持。

           

          Github:

          https://bytedancespeech.github.io/seedtts_tech_report/…

          论文:

          https://arxiv.org/abs/2406.02430

           

          根据目前官网展示的效果,Seed-TTS 可以应用在虚拟助手、视频配音、电影和游戏配音、新闻和播客制作等场景。

           

          模型的独特性是什么

           


          根据介绍,Seed-TTS 该模型基于自回归和扩散架构,首先使用一个 speech tokenizer 将输入的语音信号转换成一系列离散的语音 tokens。之后,Seed-TTS 的自回归语言模型根据输入的文本和语音标记生成目标语音的标记序列。这个过程依赖于模型对语言结构和语音特性的理解,确保生成的语音标记序列在语义和语法上与输入文本相匹配。

           

          接着,生成的语音标记序列随后被送入一个扩散变换器(diffusion transformer)模型。这个模型负责将离散的语音标记转换成连续的语音表示,这个过程是逐步细化的,从粗糙到精细,以生成平滑且自然的语音波形。

           

          最后,连续的语音表示被送入负责将这些表示转换成可听高质量语音的 Acoustic Vocoder。Acoustic Vocoder 通常使用深度学习技术来模拟人类声道产生语音的过程。

           

          Seed-TTS 模型基于大量数据进行预训练,学习语言和语音的基本规律。之后,可以通过微调来适应特定的说话者或语音风格,进一步提升语音的自然度和表现力。

           

          Seed-TTS 还采用了自我蒸馏方法来实现语音属性的分解,如音色分离,以及使用强化学习技术来增强模型的鲁棒性、说话者相似性和可控性。

           

          对于非自回归的变体 Seed-TTSDiT,它采用完全基于扩散的架构,直接从文本到语音的端到端处理,不依赖预先估计的音素持续时间。

           

          研发团队表示,与之前的模型相⽐,Seed-TTS 有两⼤优势。

           

          ⾸先,Seed-TTS 在各种场景中的语⾳合成能⼒都表现出了很好的⾃然度和表现⼒,包括喊叫、哭泣或情绪激动的语⾳等具有挑战性的场景。

           


           Seed-TTS 与重新合成和真实⼈类语⾳的评估结果

           

          其次,Seed-TTS 解决了基于语⾔模型的 TTS 系统中普遍存在的稳定性问题,这些问题阻碍了它们在现实世界中的部署。稳定性是团队通过改进 token 和模型设计、增强训练和推理策略、数据增强和强化训练后实现的。因此,Seed-TTS 在测试集上实现了显著更好的稳健性。

           

          不过团队也指出,尽管 Seed-TTS 功能强⼤,但它也存在局限性,比如在需要细微情感和情境理解的场景中存在局限性。此外,尽管使⽤⼤量数据进⾏训练,但在场景覆盖⽅⾯仍有改进空间。 例如,当前的 Seed-TTS 模型在唱歌或给出包含背景⾳乐或过多噪⾳的提⽰时表现不佳。

           

          语音生成的安全问题

           

          OpenAI 发布 GPT-4o 之后,文本转语音模型大火,但相关争议也不断。最为有名的可能就是 OpenAI 与斯嘉丽的争执。

           

          美国演员斯嘉丽·约翰逊质疑 OpenAI 聊天机器人使用酷似她声音的 Sky 语音。根据斯嘉丽此前的说法,奥特曼在去年 9 月找到她,希望她为 ChatGPT 配音,她拒绝了,但近期她发现 OpenAI Sky 系统声音跟她很像。

           

          “那不是约翰逊的声音,不应该是这样的。对于声音的相似程度,人们会有不同的看法,但我们不认为那是她的声音。”奥特曼否定道。受质疑后,OpenAI 同意删除相关语音。

           

          此事件也给业内敲响了警钟。

           

          为了限制 ChatTTS 的使用,团队在 40,000 小时模型的训练过程中添加了少量高频噪音,并使用 MP3 格式尽可能压缩音频质量,以防止恶意行为者将其用于犯罪目的。同时,团队内部训练了一个检测模型,并计划在未来将其开源。HuggingFace 上的开源版本则是一个 40,000 小时的预训练模型,没有 SFT。

           

          而字节跳动团队也明确了这一点。“Seed-TTS 的功能和局限性在多媒体和安全应⽤中带来了重⼤⽽新颖的挑战,我们认为在考虑其潜在的社会影响时必须仔细研究这些挑战。”团队在论文中提到。

           

          根据介绍,考虑到滥⽤可能会产⽣有害的社会影响,字节跳动团队在相关产品中实施了多项安全程序,以防⽌在开发和部署此模型的整个过程中出现滥⽤。例如,团队开发了⼀种多步骤验证⽅法,⽤于验证语⾳内容和说话者⾳⾊,以确保注册⾳频仅包含授权用户的声⾳。此外,团队还实施了⼀种多级⽔印⽅案,该⽅案强制包含在创建内容的各个级别,例如视频背景⽔印和内容描述中的⽔印。

          2024-06-11 14:296469

          评论

          发布
          暂无评论
          发现更多内容

          使用 Next.js、LeanCloud 和 Tailwind CSS 创建全栈应用

          张泽豪

          全栈 LeanCloud nextjs Tailwind Vercel

          [Day7]-[动态规划] 最大子数组和

          方勇(gopher)

          LeetCode 动态规划 数据结构与算法、

          web前端培训-数组扁平化实现方式

          @零度

          前端开发 ES6

          在线XML转CSV工具

          入门小站

          工具

          王者荣耀商城异地多活架构设计

          张逃逃

          可能是全网第一个使用RediSearch实战的项目

          越长大越悲伤

          redis 中文分词 全文检索 SpringBoot 2 实战案例

          模块二

          ASCE

          OpenMLDB 获评 CSDN IT 技术影响力之星 “年度开源项目”奖项

          第四范式开发者社区

          人工智能 深度学习 数据库 开源 特征平台

          为什么Java仍旧生机盎然——对“为什么Java正在消亡”的回应

          Geek_rze78a

          Java

          【架构学习 07】——王者荣耀商城异地多活架构设计

          tiger

          架构实战营

          最全讲解:GPU技术架构知识

          Finovy Cloud

          人工智能 GPU服务器 GPU算力

          怒肝 JavaScript 数据结构 — 数组篇(二)

          杨成功

          JavaScript 数据结构 4月月更

          面试突击36:线程安全问题是怎么产生的?

          王磊

          Java java面试

          建木持续集成平台v2.2.5发布

          Jianmu

          开源 持续集成 开发运维 建木CI

          OceanBase 在江西人社养老统筹系统的实践分享

          OceanBase 数据库

          oceanbase 江西人社

          TDesign 更新周报(2022年4月第1周)

          TDesign

          深入剖析 RocketMQ 源码 - 负载均衡机制

          vivo互联网技术

          负载均衡 分布式 java

          架构实战训练营模块七

          刘帅

          手机应用使用情况监控统计APP

          android App 自律

          虎符交易所Hoo研究院|关于跨链(上)——Cosmos

          区块链前沿News

          虎符交易所

          王者荣耀商城异地多活架构设计

          smile

          【模块七】王者荣耀商城异地多活架构设计

          yhjhero

          架构训练营

          带码农《手写Mybatis》进度3:实现映射器的注册和使用

          小傅哥

          小傅哥 mybatis 手写Mybatis

          什么是数据库?5分钟深入理解数据库原理。

          喀拉峻

          数据库 网络安全

          Go Error 最佳实践

          宇宙之一粟

          Go 语言 Error 4月月更

          面试突击37:线程安全问题的解决方案有哪些?

          王磊

          Java java面试

          Hoo虎符研究院|区块简报220406期

          区块链前沿News

          虎符交易所

          王者荣耀商城异地多活架构设计

          风中奇缘

          架构实战营 「架构实战营」

          怒肝 JavaScript 数据结构 — 栈篇(一)

          杨成功

          JavaScript 数据结构 4月月更

          linux之ssh-keygen命令

          入门小站

          Linux

          在线OPML压缩工具

          入门小站

          工具

          发布即被山寨?字节跳动推出语音生成模型数小时后就被“盗版”,作者直呼离谱!_AI&大模型_褚杏娟_InfoQ精选文章