写点什么

数百万小时训练,6 秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

MiniMax 技术团队

  • 2024-02-01
    北京
  • 本文字数:1381 字

    阅读完需:约 5 分钟

大小:701.41K时长:03:59
数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

从 0 到 1 的 MiniMax 语音大模型


2023 年 11 月,MiniMax 发布语音大模型 abab-speech-01。从 11 月至今,共有超过 400 家企业用户接入我们的语音大模型。


在实际应用中,来自各行各业的用户给我们反馈了很多好的建议和想法。例如,在复刻有声书场景下,市面上没有可以批量、快速生成多角色音频的解决方案;在直播电商等注重互动性的场景中,各家现有语音能力仍无法做到实时,在生成语音的过程中仍需一定的等待时间,非常影响用户体验;在教学场景中,模型碰到特殊字词或者多音字的情况,时常存在发音不准确的问题。


为了给用户带来更加高效、丰富和真实的语音定制体验,我们不断迭代 MiniMax 语音大模型,并基于用户高优需求新增语音 API 接口,并上线了多个产品功能。MiniMax 是目前第一个开放多角色配音商用接口的公司。


在模型基础能力上,我们的语音模型对长达数百万小时的高质量音频数据进行训练,基于它的训练结果,仅用 6 秒的音频就能完成音色复刻,基于文本生成语音的字错率低至万分之五,已达到全球顶尖水平。


针对用户的高优需求,我们新增了以下产品功能:


  • 三个 API 接口:多角色音频生成 API、文本角色分类 API 和快速复刻 API,帮助用户自主批量生成、克隆多角色音频;

  • 多语种能力、字典和间隔时长控制,满足用户丰富的定制化需求,提升教学场景体验

  • T2A Stream (流式语音输出) 实现生成与输出的同步,减少用户在直播、对话等场景的等待时间。


为了让更多用户体验、使用我们的技术,我们在价格上也做出了调整:T2A Pro、T2A、T2A Stream 等价格下调为原先的一半,由 10 元 / 万字符降至 5 元 / 万字符。


具体功能价格调整见下表:



声音小剧场


由于语音模型没有公开的测评集,衡量一个语音模型到底怎么样主要依靠几个比较主观的评判标准,例如:自然度、相似度,可懂度和情感表现等。以下是几个基于我们语音大模型生成、复刻的一些语音效果。大家可以听听看,欢迎拍砖:)


01 中英文夹杂读着毫无压力


文本:

哎,你说你特别想念某个东西,可以说"I really miss it a lot" 或者"I'm missing it terribly." 这样表达出你的感情。有什么特别想念的嘛?想聊聊吗?


声音 1(明杰):

00:00
00:13

声音 2(晨曦):

00:00
00:14


声音 3(祁辰):

00:00
00:14


02 跨语种复刻,比原声更自然


文本:

别担心,犯错是学习的一部分,下次你会做得更好的。Don't worry, making mistakes is part of learning. You'll do better next time.


原声音频(童声):

00:00
00:10

复刻音频(中 + 英):

00:00
00:12

只用中文原声,也可以复刻出他们讲中、英、日、韩等多种语言的声音:

韩语:

00:00
00:06

日语:

00:00
00:07


03 AI 嬛嬛和四爷,有没有甄嬛十级学者来检验一下效果?

00:00
00:12


00:00
00:09


04 多音字绕口令也难不倒!

真人都不一定能读准的多音字绕口令,我们的语音模型可以:)出现多音字的绕口令对语音模型理解上下文提出了很高要求。


“人要是行,干一行,行一行,一行行,行行行,行行行,干哪行都行”


00:00
00:08


05 实时语音通话,跟小海螺打电话吧


MiniMax 不仅为企业用户和开发者提供语音相关的 API,也为普通用户打磨了多款含有语音功能的产品。例如,我们在 AI 助手海螺问问上线了实时语音通话功能——无论你遇到什么问题,都可以随时打电话给小海螺,就像在和朋友聊天一样轻松、自然。小海螺的反应比 ChatGPT 的语音功能还快哦,快来体验一下吧!


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    06 唱 AI 嘻哈


    节奏感强、唱腔复杂的饶舌说唱,我们的模型也能够超酷演绎。

    想和 AI battle 说唱的朋友可以打开链接尝试:

    https://m.xingyeai.com/tag/2760001

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        2024-02-01 17:279773

        评论

        发布
        暂无评论
        发现更多内容

        Ipfs排名前十的公司有哪些?怎么选择靠谱的ipfs公司?

        区块链 分布式存储 IPFS fil ipfs公司

        Java Arrays.asList 和 new ArrayList(Arrays.asList()) 的对比

        HoneyMoose

        手撸二叉树之将有序数组转换为二叉搜索树

        HelloWorld杰少

        数据结构与算法 8月日更

        FunTester框架教程(一)

        FunTester

        教程 接口测试 API测试 测试框架 FunTester

        测试经验| 音视频通话相关app如何进行测试

        anyRTC开发者

        软件测试 音视频 实时通信

        U2Net基于ModelArts Notbook的仿真实验

        华为云开发者联盟

        开源 modelarts 目标检测算法 U2Net Notbook

        揭秘阿里云 RTS SDK 是如何实现直播降低延迟和卡顿

        阿里云CloudImagine

        阿里云 直播架构 直播技术 视频直播 视频云

        这几个棘手的面试常见问题,如何高情商的回答?

        架构精进之路

        情商 8月日更

        【Vue2.x 源码学习】第三十三篇 - diff算法-收尾+阶段性总结

        Brave

        源码 vue2 8月日更

        什么是工控主机?工控主机安卓主板有哪些配置?

        双赞工控

        Fil价格今日行情?Fil有投资的价值吗?

        区块链 分布式存储 IPFS fil fil价格今日行情怎么样

        【LeetCode】从上到下打印二叉树Java题解

        Albert

        算法 LeetCode 8月日更

        Go语言那些事儿之管道的关闭

        Regan Yue

        Go 语言 8月日更 管道

        在openEuler上做开发?这个大赛拿出30万寻找开源的yyds

        华为云开发者联盟

        开源 操作系统 服务器 openEuler 鲲鹏

        Jetpack Compose 架构分层

        Changing Lin

        8月日更

        从0开始的TypeScriptの五:webpack打包typescript

        空城机

        JavaScript typescript 大前端 8月日更

        七夕赶上服务器架构升级,女朋友的约会怎么办

        华为云开发者联盟

        华为云 FunctionGraph DevStar Serverless架构 服务器架构

        Stack Overflow 2021 开发者调查报告出炉,开发浪潮中的变与不变

        清秋

        语言 & 开发 文化 & 方法 Stack Overflow 开发者报告 编程语言排行

        JavaScript 之事件循环(Event Loop)

        网易云信

        small-spring 代码贡献者3个月,敢说精通Spring了,分享我的总结!

        小傅哥

        spring 小傅哥 cglib aware BeanPost

        Vue进阶(二十七):Vuex 之 getters, mapGetters, ...mapGetters详解

        No Silver Bullet

        Vue vuex 8月日更

        Hive企业级性能优化

        五分钟学大数据

        hive hive性能优化

        送你两个神器,关系数据库数据入湖轻松应对

        华为云开发者联盟

        数据库 数据湖 数据迁移 关系数据库 实时数据

        Maven 项目执行的时候提示 JAVA_HOME is not correctly set 错误

        HoneyMoose

        LeetCode题解:781. 森林中的兔子,贪心,JavaScript,详细注释

        Lee Chen

        算法 大前端 LeetCode

        金融级IT架构:网商银行是如何进行数字化落地的

        博文视点Broadview

        Mybatis自定义拦截器与插件开发

        码农参上

        8月日更

        Prometheus监控的4个黄金指标

        Rubble

        Prometheus 8月日更

        解决安全漏洞扫描,就靠它了

        百度开发者中心

        产品 最佳实践 企业动态 百度安全

        初识 C#

        若尘

        C# 8月日更

        【SpringCloud 技术专题】「原生态 Fegin」打开 Fegin 之 RPC 技术的开端,你会使用原生态的 Fegin 吗?(下)

        码界西柚

        SpringCloud OpenFegin Fegin 8月日更

        数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?_AI&大模型_InfoQ精选文章