2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

数百万小时训练,6 秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

MiniMax 技术团队

  • 2024-02-01
    北京
  • 本文字数:1381 字

    阅读完需:约 5 分钟

大小:701.41K时长:03:59
数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

从 0 到 1 的 MiniMax 语音大模型


2023 年 11 月,MiniMax 发布语音大模型 abab-speech-01。从 11 月至今,共有超过 400 家企业用户接入我们的语音大模型。


在实际应用中,来自各行各业的用户给我们反馈了很多好的建议和想法。例如,在复刻有声书场景下,市面上没有可以批量、快速生成多角色音频的解决方案;在直播电商等注重互动性的场景中,各家现有语音能力仍无法做到实时,在生成语音的过程中仍需一定的等待时间,非常影响用户体验;在教学场景中,模型碰到特殊字词或者多音字的情况,时常存在发音不准确的问题。


为了给用户带来更加高效、丰富和真实的语音定制体验,我们不断迭代 MiniMax 语音大模型,并基于用户高优需求新增语音 API 接口,并上线了多个产品功能。MiniMax 是目前第一个开放多角色配音商用接口的公司。


在模型基础能力上,我们的语音模型对长达数百万小时的高质量音频数据进行训练,基于它的训练结果,仅用 6 秒的音频就能完成音色复刻,基于文本生成语音的字错率低至万分之五,已达到全球顶尖水平。


针对用户的高优需求,我们新增了以下产品功能:


  • 三个 API 接口:多角色音频生成 API、文本角色分类 API 和快速复刻 API,帮助用户自主批量生成、克隆多角色音频;

  • 多语种能力、字典和间隔时长控制,满足用户丰富的定制化需求,提升教学场景体验

  • T2A Stream (流式语音输出) 实现生成与输出的同步,减少用户在直播、对话等场景的等待时间。


为了让更多用户体验、使用我们的技术,我们在价格上也做出了调整:T2A Pro、T2A、T2A Stream 等价格下调为原先的一半,由 10 元 / 万字符降至 5 元 / 万字符。


具体功能价格调整见下表:



声音小剧场


由于语音模型没有公开的测评集,衡量一个语音模型到底怎么样主要依靠几个比较主观的评判标准,例如:自然度、相似度,可懂度和情感表现等。以下是几个基于我们语音大模型生成、复刻的一些语音效果。大家可以听听看,欢迎拍砖:)


01 中英文夹杂读着毫无压力


文本:

哎,你说你特别想念某个东西,可以说"I really miss it a lot" 或者"I'm missing it terribly." 这样表达出你的感情。有什么特别想念的嘛?想聊聊吗?


声音 1(明杰):

00:00
00:13

声音 2(晨曦):

00:00
00:14


声音 3(祁辰):

00:00
00:14


02 跨语种复刻,比原声更自然


文本:

别担心,犯错是学习的一部分,下次你会做得更好的。Don't worry, making mistakes is part of learning. You'll do better next time.


原声音频(童声):

00:00
00:10

复刻音频(中 + 英):

00:00
00:12

只用中文原声,也可以复刻出他们讲中、英、日、韩等多种语言的声音:

韩语:

00:00
00:06

日语:

00:00
00:07


03 AI 嬛嬛和四爷,有没有甄嬛十级学者来检验一下效果?

00:00
00:12


00:00
00:09


04 多音字绕口令也难不倒!

真人都不一定能读准的多音字绕口令,我们的语音模型可以:)出现多音字的绕口令对语音模型理解上下文提出了很高要求。


“人要是行,干一行,行一行,一行行,行行行,行行行,干哪行都行”


00:00
00:08


05 实时语音通话,跟小海螺打电话吧


MiniMax 不仅为企业用户和开发者提供语音相关的 API,也为普通用户打磨了多款含有语音功能的产品。例如,我们在 AI 助手海螺问问上线了实时语音通话功能——无论你遇到什么问题,都可以随时打电话给小海螺,就像在和朋友聊天一样轻松、自然。小海螺的反应比 ChatGPT 的语音功能还快哦,快来体验一下吧!


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    06 唱 AI 嘻哈


    节奏感强、唱腔复杂的饶舌说唱,我们的模型也能够超酷演绎。

    想和 AI battle 说唱的朋友可以打开链接尝试:

    https://m.xingyeai.com/tag/2760001

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        2024-02-01 17:2710351

        评论

        发布
        暂无评论
        发现更多内容

        Alibaba最新神作!耗时182天肝出来1015页分布式全栈手册太香了

        退休的汤姆

        Java 程序员 分布式 面经 秋招

        逆向工程:揭示Google Colab未公开的秘密

        OneFlow

        机器学习 深度学习 模型

        非关系型数据库 Redis 核心内容

        苏玖

        数据库 nosql redis redis持久化 8月月更

        RT-Thread记录(十五、I/O 设备模型之SPI设备)

        矜辰所致

        RT-Thread 8月月更 I/O设备模型

        2022年密码测评理论与关键技术前沿论坛|海泰方圆分享密码应用改造典型方案

        电子信息发烧客

        如何通过OpenHarmony的音频模块实现录音变速功能?

        OpenHarmony开发者

        OpenHarmony

        前端的状态管理与时间旅行:San实践篇

        百度Geek说

        前端 JavaScrip

        AIGC:自动化内容生成,AI的下一个引爆点?

        晨山资本

        AI 2D 3D模型 3D点云

        阿里架构师花近十年时间整理出来的Java核心知识pdf(Java岗)

        退休的汤姆

        Java 面经 校招 秋招 java·工程师

        基于 gh-ost 的在线 Schema 变更

        Bytebase

        MySQL 数据库

        2022 全国大学生操作系统大赛圆满落幕 龙蜥推动人才培养与产业发展深度融合

        OpenAnolis小助手

        开源 操作系统 龙蜥社区 设计比赛

        开发者测评:阿里云 ACR 与其他的镜像仓库到底有什么不同?

        阿里巴巴云原生

        阿里云 云原生 ACR

        绿色数据中心案例介绍:阿里巴巴、华为、电信、移动……

        GPU算力

        讲真,这份秋招豪礼【面试锦囊】真舍不得给你们

        浅羽技术

        面试 面试题 秋招 8月月更 秋招你准备的怎样了

        微服务全链路灰度新能力

        阿里巴巴云原生

        阿里云 微服务 云原生 灰度 全链路

        获取IP地址的途径有哪些?要如何保护IP地址不被窃取?

        郑州埃文科技

        IP地址 追踪IP 保护IP

        别小看 Log 日志,它难住了我们组的架构师

        浅羽技术

        日志 log4j slf4j logback 8月月更

        五问五答:第三方风险管理

        SEAL安全

        网络安全 风险管理 安全风险 软件供应链安全

        秒合约交易APP系统开发源码搭建

        开发微hkkf5566

        秋招!面试十次字节/美团失败总结的《520道LeetCode题Java版答案》

        退休的汤姆

        Java 程序员 面经 Java工程师 秋招

        合合信息对于表格识别与内容提炼技术理解及研发趋势

        合合技术团队

        人工智能 表格识别 合合信息

        80%Java开发者面试都问的SpringBoot你竟不会?看完这些笔记足以

        退休的汤姆

        Java 面经 秋招 spring、

        Java基础知识总结--事务失效的12种场景

        阿婷

        Java 后端 事务 8月月更

        图文详解:内存总是不够,我靠HBase说服了Leader为新项目保驾护航

        浅羽技术

        数据库 大数据 微服务 HBase 8月月更

        让“上链”触手可及:VoneBaaS 赋能传统应用场景

        旺链科技

        区块链 数字化转型 产业区块链

        团队管理之不轻易责备

        蛋先生DX

        管理 团队 团队氛围

        升哲科技荣获2022年“中国IC设计成就奖”

        SENSORO

        物联网 芯片

        App Push 通用测试方案

        转转技术团队

        测试工具

        低成本、强交互、沉浸式的云游戏,究竟如何实现?

        阿里云CloudImagine

        视频云 云游戏

        讲座回顾丨基于 OpenYurt 和 EdgeX 的云边端协同新可能

        阿里巴巴云原生

        阿里云 云原生 边缘计算

        长阳土家族自治县政府与升哲科技达成战略合作

        SENSORO

        新基建 智慧城市 AIOT

        数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?_AI&大模型_InfoQ精选文章