写点什么

数百万小时训练,6 秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

MiniMax 技术团队

  • 2024-02-01
    北京
  • 本文字数:1381 字

    阅读完需:约 5 分钟

大小:701.41K时长:03:59
数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?

从 0 到 1 的 MiniMax 语音大模型


2023 年 11 月,MiniMax 发布语音大模型 abab-speech-01。从 11 月至今,共有超过 400 家企业用户接入我们的语音大模型。


在实际应用中,来自各行各业的用户给我们反馈了很多好的建议和想法。例如,在复刻有声书场景下,市面上没有可以批量、快速生成多角色音频的解决方案;在直播电商等注重互动性的场景中,各家现有语音能力仍无法做到实时,在生成语音的过程中仍需一定的等待时间,非常影响用户体验;在教学场景中,模型碰到特殊字词或者多音字的情况,时常存在发音不准确的问题。


为了给用户带来更加高效、丰富和真实的语音定制体验,我们不断迭代 MiniMax 语音大模型,并基于用户高优需求新增语音 API 接口,并上线了多个产品功能。MiniMax 是目前第一个开放多角色配音商用接口的公司。


在模型基础能力上,我们的语音模型对长达数百万小时的高质量音频数据进行训练,基于它的训练结果,仅用 6 秒的音频就能完成音色复刻,基于文本生成语音的字错率低至万分之五,已达到全球顶尖水平。


针对用户的高优需求,我们新增了以下产品功能:


  • 三个 API 接口:多角色音频生成 API、文本角色分类 API 和快速复刻 API,帮助用户自主批量生成、克隆多角色音频;

  • 多语种能力、字典和间隔时长控制,满足用户丰富的定制化需求,提升教学场景体验

  • T2A Stream (流式语音输出) 实现生成与输出的同步,减少用户在直播、对话等场景的等待时间。


为了让更多用户体验、使用我们的技术,我们在价格上也做出了调整:T2A Pro、T2A、T2A Stream 等价格下调为原先的一半,由 10 元 / 万字符降至 5 元 / 万字符。


具体功能价格调整见下表:



声音小剧场


由于语音模型没有公开的测评集,衡量一个语音模型到底怎么样主要依靠几个比较主观的评判标准,例如:自然度、相似度,可懂度和情感表现等。以下是几个基于我们语音大模型生成、复刻的一些语音效果。大家可以听听看,欢迎拍砖:)


01 中英文夹杂读着毫无压力


文本:

哎,你说你特别想念某个东西,可以说"I really miss it a lot" 或者"I'm missing it terribly." 这样表达出你的感情。有什么特别想念的嘛?想聊聊吗?


声音 1(明杰):

00:00
00:13

声音 2(晨曦):

00:00
00:14


声音 3(祁辰):

00:00
00:14


02 跨语种复刻,比原声更自然


文本:

别担心,犯错是学习的一部分,下次你会做得更好的。Don't worry, making mistakes is part of learning. You'll do better next time.


原声音频(童声):

00:00
00:10

复刻音频(中 + 英):

00:00
00:12

只用中文原声,也可以复刻出他们讲中、英、日、韩等多种语言的声音:

韩语:

00:00
00:06

日语:

00:00
00:07


03 AI 嬛嬛和四爷,有没有甄嬛十级学者来检验一下效果?

00:00
00:12


00:00
00:09


04 多音字绕口令也难不倒!

真人都不一定能读准的多音字绕口令,我们的语音模型可以:)出现多音字的绕口令对语音模型理解上下文提出了很高要求。


“人要是行,干一行,行一行,一行行,行行行,行行行,干哪行都行”


00:00
00:08


05 实时语音通话,跟小海螺打电话吧


MiniMax 不仅为企业用户和开发者提供语音相关的 API,也为普通用户打磨了多款含有语音功能的产品。例如,我们在 AI 助手海螺问问上线了实时语音通话功能——无论你遇到什么问题,都可以随时打电话给小海螺,就像在和朋友聊天一样轻松、自然。小海螺的反应比 ChatGPT 的语音功能还快哦,快来体验一下吧!


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    06 唱 AI 嘻哈


    节奏感强、唱腔复杂的饶舌说唱,我们的模型也能够超酷演绎。

    想和 AI battle 说唱的朋友可以打开链接尝试:

    https://m.xingyeai.com/tag/2760001

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        2024-02-01 17:2710201

        评论

        发布
        暂无评论
        发现更多内容

        Spring整合WebSocket

        牛初九

        消息队列之事务消息,RocketMQ 和 Kafka 是如何做的?

        yes

        分布式事务 RocketMQ kafak 事务消息

        开发者的福音,LR.NET模块化代码生成器

        Learun

        Java 敏捷开发 .net core 计算机程序设计艺术 软件设计

        数字人民币钱包短暂露面 金融诈骗伺机而起

        CECBC

        数字货币 钱包 货币

        Docker 镜像的备份恢复迁移

        哈喽沃德先生

        Docker 容器 微服务 镜像

        mPaas研发流程和线上运维介绍

        阿里云金融线TAM SRE专家服务团队

        ios android

        Redis常见问题--哈希冲突

        是老郭啊

        哈希表 Redis项目

        一个空格引发的“救火之旅” - 记一次 SOFA RPC 的排查过程

        阿里云金融线TAM SRE专家服务团队

        JAVA,.NET项目开发难上手?Learun敏捷开发框架解君愁

        Philips

        Java 敏捷开发 .net core

        NodeX Component - 滴滴集团 Node.js 生态组件体系

        滴滴普惠出行

        向云再出发:如数据般飞驰的内蒙古

        脑极体

        数字货币交易平台搭建,去中心化交易所开发方案

        13530558032

        一键洞察全量SQL ,远离性能异常

        华为云开发者联盟

        数据库 sql 大数据 数据治理 华为云

        JVM 内存模型、字节码、垃圾回收面试要点

        escray

        学习 面试 垃圾回收 字节码

        Redis常见问题--单线程

        是老郭啊

        nosql redis 线程

        Redis 持久化--AOF

        是老郭啊

        redis redis持久化 aof

        深入了解 Rust 异步开发模式

        lipi

        rust 异步

        开发任务管理分析报告

        森林

        新基建迎来风口 新人才仍有缺口

        CECBC

        人工智能 新基建 数字化基础

        银行大数据新玩法,构建“一湖两库”金融数据湖

        华为云开发者联盟

        大数据 数据湖 FusionInsight MRS DWS

        【译】Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases 上篇

        米乐m6app苹果官网下载

        分布式数据库 异步 Amazon Aurora 日志驱动

        10万奖金等你拿!2020第四届易观OLAP算法大赛火热开启

        易观大数据

        LeetCode题解:155. 最小栈,单个栈同时存储最小值,JavaScript,详细注释

        Lee Chen

        大前端 LeetCode

        Vue+Springboot项目部署

        ZRK

        Vue 前后端分离 springboot 部署

        controller-manager的主动驱逐

        Geek_f24c45

        Kubernetes k8s

        一文带你深扒ClassLoader内核,揭开它的神秘面纱!

        我没有三颗心脏

        Java ClassLoader java基础 类加载器

        OpenKruise:Kubernetes 核心控制器 Plus

        郭旭东

        Kubernetes 云原生 OpenKruise

        数字化转型需要低/零代码平台的支持

        代码制造者

        低代码 数字化转型 企业信息化 零代码 编程开发

        易观CTO郭炜:如何构建企业级大数据Ad-hoc查询引擎

        易观大数据

        Spring Boot中获取配置的一些方法

        Geek_416be1

        Spring Boot 2

        人民版权 获2020中国产业区块链创新奖

        CECBC

        区块链 产业发展 版权

        数百万小时训练,6秒音频即可完成音色复刻!效果不输 ElevenLabs 和 OpenAI 的 MiniMax 语音大模型能用来做什么?_AI&大模型_InfoQ精选文章