【AICon】硅谷视野+中国实践,汇聚全球顶尖技术的 AI 科技盛会 >>> 了解详情
写点什么

数百万小时训练,6 秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

MiniMax 技术团队

  • 2024-02-01
    北京
  • 本文字数:1381 字

    阅读完需:约 5 分钟

大小:701.41K时长:03:59
数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

从 0 到 1 的 MiniMax 语音大模型


2023 年 11 月,MiniMax 发布语音大模型 abab-speech-01。从 11 月至今,共有超过 400 家企业用户接入我们的语音大模型。


在实际应用中,来自各行各业的用户给我们反馈了很多好的建议和想法。例如,在复刻有声书场景下,市面上没有可以批量、快速生成多角色音频的解决方案;在直播电商等注重互动性的场景中,各家现有语音能力仍无法做到实时,在生成语音的过程中仍需一定的等待时间,非常影响用户体验;在教学场景中,模型碰到特殊字词或者多音字的情况,时常存在发音不准确的问题。


为了给用户带来更加高效、丰富和真实的语音定制体验,我们不断迭代 MiniMax 语音大模型,并基于用户高优需求新增语音 API 接口,并上线了多个产品功能。MiniMax 是目前第一个开放多角色配音商用接口的公司。


在模型基础能力上,我们的语音模型对长达数百万小时的高质量音频数据进行训练,基于它的训练结果,仅用 6 秒的音频就能完成音色复刻,基于文本生成语音的字错率低至万分之五,已达到全球顶尖水平。


针对用户的高优需求,我们新增了以下产品功能:


  • 三个 API 接口:多角色音频生成 API、文本角色分类 API 和快速复刻 API,帮助用户自主批量生成、克隆多角色音频;

  • 多语种能力、字典和间隔时长控制,满足用户丰富的定制化需求,提升教学场景体验

  • T2A Stream (流式语音输出) 实现生成与输出的同步,减少用户在直播、对话等场景的等待时间。


为了让更多用户体验、使用我们的技术,我们在价格上也做出了调整:T2A Pro、T2A、T2A Stream 等价格下调为原先的一半,由 10 元 / 万字符降至 5 元 / 万字符。


具体功能价格调整见下表:



声音小剧场


由于语音模型没有公开的测评集,衡量一个语音模型到底怎么样主要依靠几个比较主观的评判标准,例如:自然度、相似度,可懂度和情感表现等。以下是几个基于我们语音大模型生成、复刻的一些语音效果。大家可以听听看,欢迎拍砖:)


01 中英文夹杂读着毫无压力


文本:

哎,你说你特别想念某个东西,可以说"I really miss it a lot" 或者"I'm missing it terribly." 这样表达出你的感情。有什么特别想念的嘛?想聊聊吗?


声音 1(明杰):

00:00
00:13

声音 2(晨曦):

00:00
00:14


声音 3(祁辰):

00:00
00:14


02 跨语种复刻,比原声更自然


文本:

别担心,犯错是学习的一部分,下次你会做得更好的。Don't worry, making mistakes is part of learning. You'll do better next time.


原声音频(童声):

00:00
00:10

复刻音频(中 + 英):

00:00
00:12

只用中文原声,也可以复刻出他们讲中、英、日、韩等多种语言的声音:

韩语:

00:00
00:06

日语:

00:00
00:07


03 AI 嬛嬛和四爷,有没有甄嬛十级学者来检验一下效果?

00:00
00:12


00:00
00:09


04 多音字绕口令也难不倒!

真人都不一定能读准的多音字绕口令,我们的语音模型可以:)出现多音字的绕口令对语音模型理解上下文提出了很高要求。


“人要是行,干一行,行一行,一行行,行行行,行行行,干哪行都行”


00:00
00:08


05 实时语音通话,跟小海螺打电话吧


MiniMax 不仅为企业用户和开发者提供语音相关的 API,也为普通用户打磨了多款含有语音功能的产品。例如,我们在 AI 助手海螺问问上线了实时语音通话功能——无论你遇到什么问题,都可以随时打电话给小海螺,就像在和朋友聊天一样轻松、自然。小海螺的反应比 ChatGPT 的语音功能还快哦,快来体验一下吧!


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    06 唱 AI 嘻哈


    节奏感强、唱腔复杂的饶舌说唱,我们的模型也能够超酷演绎。

    想和 AI battle 说唱的朋友可以打开链接尝试:

    https://m.xingyeai.com/tag/2760001

    00:00 / 00:00
      1.0x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        公众号推荐:

        跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

        2024-02-01 17:278675

        评论

        发布
        暂无评论

        深入理解TF-IDF、BM25算法与BM25变种:揭秘信息检索的核心原理与应用

        AI课程

        nlp 搜索系统 BM25算法 关键词检索

        有关SCADA系统的所有信息:什么是SCADA?

        2D3D前端可视化开发

        物联网 组态软件 工业自动化 SCADA HMI

        【http服务】使用命令来查看和停止端口教程。

        百度搜索:蓝易云

        Linux 运维 云服务器 ECS

        Parallels Desktop 18 for Mac v18.3.2永久激活版下载

        iMac小白

        如何用 Python 实现一个 “系统声音” 的实时律动挂件

        北桥苏

        Python pyaudio 系统声音

        Axure RP 8 中文激活授权码 Axure RP 8 完整安装教程 Mac/win

        南屿

        原型设计 Axure RP 8授权码 Axure RP 8下载 Axure RP 8汉化包

        Fig Player - play mp4 mkv mp3 苹果电脑媒体播放器

        南屿

        mac视频播放器 苹果软件下载 Fig Player破解下载 Fig Player Mac版

        Rhinoceros 6 for Mac(犀牛6) 6.31.20315完美激活版

        mac

        苹果mac Windows软件 Rhinoceros 3D设计软件 犀牛

        CloudMounter for mac v4.3 激活版下载(云盘本地加载工具)

        iMac小白

        【最新中文版激活序列号】Macs Fan Control Pro 苹果电脑掌控风扇必备软件

        南屿

        Macs Fan Control Pro下载 Macs Fan Control Pro破解 Mac 电脑风扇速度

        Linux常用命令—findfs命令

        百度搜索:蓝易云

        云计算 Linux 云服务器 uuid findfs

        QLab Pro for Mac(音频剪辑软件)v5.3.3激活版下载

        iMac小白

        Parallels Desktop 19 for Mac 一键激活版(PD19虚拟机)

        iMac小白

        行云部署成长之路--慢SQL优化之旅 | 京东云技术团队

        京东科技开发者

        Emby for Mac:多媒体影音库管理工具 兼容M1

        南屿

        苹果软件下载 Mac破解软件 Emby for Mac 多媒体影音库管理工具

        One Switch mac版 菜单栏一键控制神器 支持M/Intel

        南屿

        mac效率工具 One Switch for Mac 菜单栏一键开关控制神器 One Switch破解

        软件测试开发/全日制/测试管理丨软件测试流程

        测试人

        软件测试 测试开发

        轻松完成图片转换矢量图,推荐Vector Magic for Mac破解版

        南屿

        mac软件下载 Vector Magic破解版 矢量图片转换工具

        Java执行Python代码的两种方法(Jython与ProcessBuilder)

        百度搜索:蓝易云

        Java Python Linux Jython ProcessBuilder

        软件测试开发/全日制/测试管理丨测试用例设计

        测试人

        软件测试 自动化测试 测试开发 测试用例 用例设计

        Premiere Pro 2022 for Mac v22.6.2中文激活版下载

        iMac小白

        每日一题:LeetCode-10037. 移除后集合的最多元素数

        半亩房顶

        Go 面试 算法 LeetCode 贪心算法

        苹果Mac自用软件推荐:Unite for mac 将网站转化为应用程序 支持M1/M2/Intel

        南屿

        Unite for Mac Unite破解版 将网站转化为应用程序 Mac软件资源站

        3D建模设计 Vectorworks 2022 SP5激活版 for Mac 下载安装教程

        南屿

        3D建模软件 Vectorworks 2022下载 破解软件 Vectorworks 2022注册码

        如何基于文心一言NLP大模型搭建生成式智能对话服务

        百度开发者中心

        人工智能 nlp 大模型

        Magnet for mac v2.14.0中文免激活版下载

        iMac小白

        StarRocks Awards 2023 年度贡献人物

        StarRocks

        数据库 数据分析 开源社区 StarRocks

        AVTouchBar for mac v3.0.7激活版(Touch Bar音频可视化器)

        iMac小白

        实践案例:通过API优化加快上市时间

        幂简集成

        产品 MVP API OpenAPI REST API

        DNA序列分析软件 SnapGene 5 v5.3.1中文激活版 下载安装

        南屿

        SnapGene 5破解版 SnapGene 5下载 分子生物学软件 DNA序列

        苹果电脑YouTube客户端下载:YouTube for mac激活版v1.22(56)中文版安装教程

        南屿

        YouTube客户端 苹果mac软件 Clicker for YouTube

        数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?_AI&大模型_InfoQ精选文章