10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

数百万小时训练,6 秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

MiniMax 技术团队

  • 2024-02-01
    北京
  • 本文字数:1381 字

    阅读完需:约 5 分钟

大小:701.41K时长:03:59
数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

从 0 到 1 的 MiniMax 语音大模型


2023 年 11 月,MiniMax 发布语音大模型 abab-speech-01。从 11 月至今,共有超过 400 家企业用户接入我们的语音大模型。


在实际应用中,来自各行各业的用户给我们反馈了很多好的建议和想法。例如,在复刻有声书场景下,市面上没有可以批量、快速生成多角色音频的解决方案;在直播电商等注重互动性的场景中,各家现有语音能力仍无法做到实时,在生成语音的过程中仍需一定的等待时间,非常影响用户体验;在教学场景中,模型碰到特殊字词或者多音字的情况,时常存在发音不准确的问题。


为了给用户带来更加高效、丰富和真实的语音定制体验,我们不断迭代 MiniMax 语音大模型,并基于用户高优需求新增语音 API 接口,并上线了多个产品功能。MiniMax 是目前第一个开放多角色配音商用接口的公司。


在模型基础能力上,我们的语音模型对长达数百万小时的高质量音频数据进行训练,基于它的训练结果,仅用 6 秒的音频就能完成音色复刻,基于文本生成语音的字错率低至万分之五,已达到全球顶尖水平。


针对用户的高优需求,我们新增了以下产品功能:


  • 三个 API 接口:多角色音频生成 API、文本角色分类 API 和快速复刻 API,帮助用户自主批量生成、克隆多角色音频;

  • 多语种能力、字典和间隔时长控制,满足用户丰富的定制化需求,提升教学场景体验

  • T2A Stream (流式语音输出) 实现生成与输出的同步,减少用户在直播、对话等场景的等待时间。


为了让更多用户体验、使用我们的技术,我们在价格上也做出了调整:T2A Pro、T2A、T2A Stream 等价格下调为原先的一半,由 10 元 / 万字符降至 5 元 / 万字符。


具体功能价格调整见下表:



声音小剧场


由于语音模型没有公开的测评集,衡量一个语音模型到底怎么样主要依靠几个比较主观的评判标准,例如:自然度、相似度,可懂度和情感表现等。以下是几个基于我们语音大模型生成、复刻的一些语音效果。大家可以听听看,欢迎拍砖:)


01 中英文夹杂读着毫无压力


文本:

哎,你说你特别想念某个东西,可以说"I really miss it a lot" 或者"I'm missing it terribly." 这样表达出你的感情。有什么特别想念的嘛?想聊聊吗?


声音 1(明杰):

00:00
00:13

声音 2(晨曦):

00:00
00:14


声音 3(祁辰):

00:00
00:14


02 跨语种复刻,比原声更自然


文本:

别担心,犯错是学习的一部分,下次你会做得更好的。Don't worry, making mistakes is part of learning. You'll do better next time.


原声音频(童声):

00:00
00:10

复刻音频(中 + 英):

00:00
00:12

只用中文原声,也可以复刻出他们讲中、英、日、韩等多种语言的声音:

韩语:

00:00
00:06

日语:

00:00
00:07


03 AI 嬛嬛和四爷,有没有甄嬛十级学者来检验一下效果?

00:00
00:12


00:00
00:09


04 多音字绕口令也难不倒!

真人都不一定能读准的多音字绕口令,我们的语音模型可以:)出现多音字的绕口令对语音模型理解上下文提出了很高要求。


“人要是行,干一行,行一行,一行行,行行行,行行行,干哪行都行”


00:00
00:08


05 实时语音通话,跟小海螺打电话吧


MiniMax 不仅为企业用户和开发者提供语音相关的 API,也为普通用户打磨了多款含有语音功能的产品。例如,我们在 AI 助手海螺问问上线了实时语音通话功能——无论你遇到什么问题,都可以随时打电话给小海螺,就像在和朋友聊天一样轻松、自然。小海螺的反应比 ChatGPT 的语音功能还快哦,快来体验一下吧!


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    06 唱 AI 嘻哈


    节奏感强、唱腔复杂的饶舌说唱,我们的模型也能够超酷演绎。

    想和 AI battle 说唱的朋友可以打开链接尝试:

    https://m.xingyeai.com/tag/2760001

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        2024-02-01 17:2710030

        评论

        发布
        暂无评论
        发现更多内容

        Prometheus 告警时为何无法获取现场值

        巴辉特

        Prometheus 监控告警 夜莺监控 运维监控 开源监控

        非凸科技受邀参加Community Over Code Asia 2025 Rust分论坛

        非凸科技

        VS Code Server本地Docker部署+贝锐花生壳内网穿透远程访问教程

        科技热闻

        华为阅读独家首发《金字塔在中国:古埃及文明大展炼成记》精品书

        最新动态

        全前维护LED显示屏优势和选购指南

        Dylan

        LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

        主流自动化测试框架的技术解析与实战指南

        测吧(北京)科技有限公司

        人工智能 智能体 测试开发 playwright selenium

        通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统

        阿里云大数据AI技术

        全文检索 Milvus 混合检索 RAG应用 Sparse-BM25算法

        Apache SeaTunnel 新定位!迈向多模态数据集成的统一工具

        白鲸开源

        大数据 开源 数据集成 多模态 Apache SeaTunnel

        ClkLog埋点与用户行为分析系统2.0:架构升级性能跃迁,限时优惠速来体验

        ClkLog

        开源 用户行为分析 CDP 客户画像 埋点分析系统

        蒸馏大型语言模型并超越其性能

        qife122

        机器学习 模型蒸馏

        算力不开放,智能难平权:万亿参数时代,谁为开源模型托底?

        脑极体

        AI

        从纳秒到毫秒的“时空之旅”:CPU是如何看待内存与硬盘的?

        poemyang

        计算机基础 IO模型 CPU Cache #存储

        黑龙江等保测评全流程解析:从定级到整改的完整指南

        等保测评

        黑龙江等保测评核心指标解析:技术安全与管理安全的双重保障

        等保测评

        大数据-65 Kafka 高级特性 Broker ISR 宕机重平衡 实测详解

        武子康

        Java 大数据 kafka 分布式 消息队列

        私有化部署局域网 IM:BeeWorks支持内网使用

        BeeWorks

        即时通讯 IM 私有化部署

        Rust 性能提升“最后一公里”:详解 Profiling 瓶颈定位与优化|得物技术

        得物技术

        rust Profile rust语言

        京东图片搜索API秘籍!轻松获取相似商品数据

        tbapi

        京东API 京东图片搜索接口 京东拍立淘接口 京东图片搜索API 京东图片API

        京东店铺所有商品API技术指南

        tbapi

        京东API 京东数据接口 京东店铺所有商品接口 京东店铺数据采集

        超越预算,打开企业预算管理新思维

        智达方通

        全面预算管理 财务管理 成本预算管理

        一文教你Docker自建Jupyter Notebook,并用内网穿透实现远程访问

        科技热闻

        跨文化冲突下的品牌舆情管理

        沃观Wovision

        出海企业 舆情监控 沃观Wovision 海外舆情监测

        超融合架构 “破壁”:从企业到数据中心的全能应用版图

        智驱前线

        7 月 SeaTunnel 社区狂飙:新特性、强优化、贡献者满分输出

        白鲸开源

        开源 数据同步 数据集成 Apache SeaTunnel

        通过自动化工具实现亚马逊云上资源标签管理

        亚马逊云科技 (Amazon Web Services)

        哈尔滨等保测评中的 “神秘角色”:测评师

        等保测评

        企业 IM 即时通讯BeeWorks

        BeeWorks

        即时通讯 IM 私有化部署

        一文吃透 Promise 与 async/await,异步编程也能如此简单!建议收藏!

        左诗右码

        北京市十一学校×火山引擎:全球AI少年齐聚北京,以代码会友

        新消费日报

        Java干货分享

        codemonkey

        #java #并发

        技术文档 | 使用 Spring AI 实现一个简单的 Pulsar MCP Server

        AscentStream

        MCP

        数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?_AI&大模型_InfoQ精选文章