写点什么

“AI 大神”李沐终于开源新模型,爆肝 6 个月,上线迅速斩获 3.6k stars!

  • 2025-07-26
    北京
  • 本文字数:4725 字

    阅读完需:约 16 分钟

大小:2.26M时长:13:10
“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!

7 月 23 日,“AI 大神”李沐宣布开源了 Higgs Audio v2,这是一个音频基础模型,构建在 Llama-3.2-3B 基础之上,预训练数据包括超过 1000 万小时的音频以及丰富的文本数据。该模型目前在 Github 上已获得 3.6k stars。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    “去年我们一直关注的是文本语言模型,让它智商足够高、能听从人的指示,一方面可以陪人玩游戏,另一方面也能帮忙处理一些文案工作,简单来说就是能读能写。今年我们在想,能不能让模型能听也能说。”李沐在 B 站发布的视频中说道。

     

    随后,他表示,“语音是 AI 中一个相对比较悠久的领域,我其实并不是语音方面的专家。作为一个新手,我的想法很简单,就是我不要去训练单独的语音模型,而是在文本大语言模型训练时加入大量的语音数据,大力出奇迹,就想让文本语言模型智商不要下降,但同时掌握了用语音沟通的能力。”

     

    李沐是全球知名 AI 深度学习科学家、深度学习框架 MXNet 作者之一,2008 年毕业于上海交通大学计算机系,曾于微软亚洲研究院实习。毕业后任香港科技大学研究助理,2011 年加入百度任高级研发;2012 年赴卡耐基梅隆大学攻读博士,期间在谷歌研究代码文档。2017 年获博士学位后加入亚马逊担任 AI 主任科学家,工作 7 年半后离职创立大模型公司 Boson AI。

     

    据悉,在 EmergentTTS-Eval 测评中, Higgs Audio v2 在“情绪(Emotions)”和“提问(Questions)”两个类别中,相较于 “gpt-4o-mini-tts”,分别达到了 75.7% 和 55.7% 的胜率。同时,它在 Seed-TTS Eval 和情感语音数据集(Emotional Speech Dataset, ESD)等传统 TTS 基准测试中也取得了业界领先的成绩。



    此外,该模型还展现出其他能力,包括多语种自然多说话人对话生成、旁白时自动语调适配、克隆声音的旋律哼唱,以及语音与背景音乐的同步生成等。

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      李沐在最新的视频中详细介绍了 Higgs Audio v2 背后的技术以及踩过的一些坑。

       

      文本模型训练时加入 1000 万小时语音数据

       

      李沐开始介绍了 Higgs Audio v2 的架构。但在此之前,他先举例回顾了文本模型的原理。比如,问模型“中国的首都是?”,语言模型看到这个问题后,会下意识地开始回答,首先想到“北”,然后结合这个问题和“北”,再去预测下一个词是“京”。

       


      但在实际使用中,通常不会让语言模型直接做这种文字接龙,因为这样不够可控。通常做法是把一个问题分成三个部分:在“system”部分,在这里告诉语言模型要做什么事情,比如让它回答问题,当然也可以让它做别的,比如闲聊、帮忙写一段文字等;在“user”部分,要把具体要做的事情告诉模型,比如具体要问的问题或者要写什么样的小说,而“system”就是模型的回复。还可以做成多轮交互,也就是再接一个“user”后,再接一个“system”。

       

      让这个模型支持语音的输入和输出,就是给这个模型增加一个新任务。比如,给模型的系统命令:“把下面的文字转录成语音”,然后在用户的输入里把要转的文字告诉模型,希望模型能在“system”里输出对应的语音数据。

       


      为什么要把语言模型改造成这个样子?李沐解释称,因为语音识别或者语音生成,都是一个单独的模型,它要做的事情就是把文字转语音或者语音转文字。像 Whisper 虽然也是基于 Transformer,但是它只干一件事情。

       

      让一个文本的模型做额外的语音输出,坏处很明显:如果想让一个模型能够具有很好的语音处理能力,那么相对于纯语音模型来说这个模型会变大。同样地,一个文本模型加入语音数据很有可能让它的智商变低。

       

      但是,这样做的好处也很明显。比如,下图显示了一个简化的任务版本:



      在专业的语音录音时,导演会给专业的录音演员介绍录音的场景(这里是“小明和小红在吵架”),同时要说明这个人物的性格是什么样子?(这里是“小明性格比较急躁,小红比较腼腆一点”)。接下来是真正要录的一个对话,小明说什么、小红说什么,同时可能一些相应的动作音效都要加进去。那么,专业的录音演员不仅仅是要把这句话读出来,而且是要符合人设、符合场景,这样才能做到很好的一个表演。

       

      上一代的文字转语音模型很可能比较难以理解这么复杂的设定。那么有了语言模型的加持之后,它很有可能可以理解,因为在文本领域大家一直是给模型特别复杂的设定:“你要帮我干 a、b、c、d、e、f、g,然后请你帮我干出来”,所以在模型训练时候会尽量让它能够遵从人的指示。如果保留了文本语言模型的能力,那么做语音输出的时候就也能够支持对复杂指令的理解。

       

      此外,简单的文本转语音任务已经不能满足大家的需求了。我们可能不仅想要生成一段语音,还想写一首歌并把它唱出来,配乐也要跟上。这是生成方面的应用,在理解方面也可以发挥作用。

       

      比如给到一段声音,让模型把里面人说的话提取出来,这是最简单的;接下来,还可以让模型分析里面在发生什么事情,比如说话的人是男性还是女性、年纪如何,他们是在吵架、对话还是在进行教学,根据环境音还能猜出是在室内、室外还是其他场景。语音中包含大量信号,人能够理解其整个上下文,而有了文本语言模型的加持后,模型也能够进行这种复杂的理解和推理。

       

      更复杂一点的,我们和模型语音聊天,不希望模型只是机械地一轮一轮回应,而是能理解人们当前的心情,也能表现自身的情绪,而且希望它的延迟足够低,不会说一句话后要等一两秒才回答,而是可以像面对面交流一样。

       

      李沐表示,所有这些任务都能够拆解成“system、user、assistant”这样的格式,使得语言模型能够统一处理,也就是“一个祖传的配方能够处理所有的问题”。团队希望用一个相对来说固定的简单的模型,然后通过加更多的数据,加入更多的算力,通过 Scaling Law 大力出奇迹。

       

      模型如何理解和输出语音信号?

       

      接下来,回答两个“怎么做”的事情:

       

      • 怎么让模型理解和输出整个语音信号或者声音信号?

      • 在训练模型的时候,要构造怎么样的数据,让模型真的能够把语音的信号和文本的信号很好地融合起来,然后它能理解这个语音到底在表达什么?

       

      对于第一个问题,李沐先回顾了文字是怎样在语言模型里面表示的。

       

      文字在语言模型中通过 token 或资源这种来表示,简单理解就是中文单字或英文词根可视为一个 token,输入文字被转化为 token 序列,语言模型的任务是预测序列中的下一个 token。token 是离散概念,它有一个包含了数万个 token 的词典,语言模型的输出是一个 Softmax,本质是一个多分类问题,每次从词典中选择一个词作为输出。

       

      语音信号会麻烦一些,它是连续的信号。怎么把连续的信号表示成离散的 token?

       

      一种简单方法是按固定时长(如 100 毫秒)切分语音片段,并基于声音在细粒度上重复出现的特性,为每个片段匹配一个预定义的、代表性的声音模板(即 token)来近似表示。比如,以 45 个语音片段作为模板,当输入 1 秒的语音引号后,将其切分为 10 个小片段,每个片段用 45 个模板中最匹配的模板编号表示,最终该秒语音转化为长度为 10 的编号序列。这种表示使语言模型能像处理文本 token 一样处理语音信号,无论是输入还是输出。

       

      当然,实践中不会那么的简单,因为语音信号不是那么容易被表示的。比如,1 小时的信号用 128 BPS 的 MP3 存储,大概约 60MB(中等音质),若采用 64,000 个 token 表示,然后一秒钟的音频用 24 个 token 表示。那么用这种方式编码一段语音时,每个 token 仅需 log₂(64,000)≈16 比特,1 秒语音仅需 384 比特(24×16),1 小时压缩至 0.16MB,相较于 128kbps MP3 实现了 375 倍的压缩。

       

      这样高的压缩必然严重损失信息,此时关键的问题在于:tokenizer 应优先保留声学信号(如说话的音调)还是语义信号(具体说的什么内容)? 李沐团队的结论是:语义信息优先。

       

      声学信号只需少量特征即可保留核心风格,后续可通过其他方法还原。但语义信号千变万化,同一声音在不同场景下表达的内容可能截然不同,因此需尽量保持语义信息的完整性,确保语义 token 包含足够丰富的语义信息,使模型能早期建立语音与文本 token 的强语义关联,从而流畅实现语音与文本的相互转换。

       

      将声音表示成 token 进入模型之后,接下来要关注的是模型怎样能很好地理解和生成这些声音。

       

      声音转文字或者文字转声音,本质上是在做模态间的转换,所以语言模型能够将一个内容的语音表示和文字表示做映射。如今文本的大模型已经很强了,现在需要考虑的是将语音的语义尽量映射回文本,以继承模型在文本领域的强大能力。

       

      可能有人问,如果做实时语音助手,听上去好像是我说一句、模型回一句,是不是直接在语音的空间做呢?实际上,现在的技术还是会回到文本的语音空间。因为做一个语音助手,那么人设是什么、什么东西该做、什么不该做,其实是用文字来控制。另外,实时互动的时候很有可能也是在文本空间。比如问“今天天气怎么样?”模型可能是在文本空间搜索,然后把结果返回来后,再映射回语音信号。因此,核心在于模型需要打通文本与语音的表示关联,使模型理解同一概念在不同模态的对应关系。

       

      有了数据后,怎么训练模型?

       

      有了这个目标后,就可以考虑需要什么样的数据以及数据怎么表达。

       

      “我觉得数据反正是越多越好。”李沐表示,团队未使用 B 站或 YouTube 的数据,不是因为质量不好,而是为了规避版权风险。其做法是要么采购合规数据,当然价格不能太贵,要么抓取允许公开获取的音频,但后者可能需要删掉 90%的数据才能留下一些可用的。例如,为获取 1,000 万小时有效数据需抓取近 1 亿小时原始素材。

       

      有了数据之后,团队是怎样进行模型训练呢?

       

      举例来说,拿到一段语音进行模型训练时,通常会如下表达:系统层面说明这个声音的声学特征是什么、在聊什么、有哪些人以及这些人的特点等;接下来,用户输入的聊天文字作为输入,模型则输出对应的音频。

       


      在这个任务中,团队希望模型能根据提供的整个场景描述和需要生成的文字,能够输出真实且符合场景的语音。

       

      对于这些标签是怎么打出来的问题,李沐的建议是:如果是一名学生做研究,推荐把语音交给 OpenAI 的 GPT 或 Google 的 Jamila 让他们打标。但李沐坦言其团队做不了这个事情,背后有两个原因:第一个原因是对方明令禁止调用他们模型的输出去训练其他模型;第二个原因是成本太贵了,团队要处理的数据量远不止一千万条,可能上亿,这样的 API 代价承受不来。

       

      李沐团队的做法是:采用同样的模型架构,额外训练一个语音理解模型。大家应该能想象这个语音理解模型的输入输出:在做语音生成时,是输入场景描述和用户要说的话,然后输出语音;现在是反过来,输入一段用户语音,要求模型分析场景(如有哪些人、这些人什么样、在说什么内容)以及说话时的情绪状态等,并输出所有这些信息。

       

      这相当于把生成模型的输入输出对调了:生成模型的输入(场景描述和说话内容)变成了理解模型的输出,而生成模型的输出(语音)变成了理解模型的输入。

       

      打个比方,要教会徒弟全套拳脚功夫,但一次教不全;于是我先教一个徒弟打拳,再教另一个徒弟踢腿,然后让他们天天对打,打着打着共同进步,最终两人都学会完整的拳脚功夫。

       

      最后,回归到 Higgs Audio v2,其采用了下面架构图中所示的“生成式变体(generation variant)”。



      该模型的性能表现主要得益于三项关键技术创新:

       

      • 团队开发了一套自动化标注流程,结合了多个语音识别(ASR)模型、声音事件分类模型,以及其自研的音频理解模型。通过这条流程,团队清洗并标注了 1000 万小时的音频数据,并将其称为 AudioVerse。自研的理解模型是在 Higgs Audio v1 Understanding 基础上微调而来,后者采用的是架构图中所示的“理解式变体(understanding variant)”。

      • 从零开始训练了一个统一的音频分词器(tokenizer),能够同时捕捉语义和声学特征。

      • 提出了 DualFFN 架构,在几乎不增加计算开销的前提下,显著增强了大语言模型(LLM)对声学 token 的建模能力。加入 DualFFN 后,其实现依然保留了原始大模型训练速度的 91%。

       

      参考链接:

      https://b23.tv/UdINLVV

      https://github.com/boson-ai/higgs-audio

      2025-07-26 07:001

      评论

      发布
      暂无评论

      SQL Server 2008中的分区表(二):如何添加、查询

      Java 程序员 后端

      TLS加密远程连接Docker

      Java 程序员 后端

      tomcat的maxThreads、acceptCount,对高并发的影响

      Java 程序员 后端

      Ubuntu16安装Nvidia驱动(GTX1060显卡)

      Java 程序员 后端

      windows 下JDK12的安装过程

      Java 程序员 后端

      System

      Java 程序员 后端

      TCP面试相关总结

      Java 程序员 后端

      Android技术分享| 【自习室】自定义View代替通知动画(2)

      anyRTC开发者

      android 音视频 WebRTC 移动开发 自定义view

      基于Fiber的React Diff算法源码分析

      贝壳大前端技术团队

      Fiber React Diff

      Tomcat 多端口,多虚拟主机配置方法

      Java 程序员 后端

      Tomcat性能调优

      Java 程序员 后端

      Vim,人类史上最好用的文本编辑器!从此以后你就是一个善良的极客!

      Java 程序员 后端

      智能边缘框架Baetyl,为各行业落地实践提供安全机制

      百度大脑

      人工智能 百度

      SQL Server 2008中的分区表(二):如何添加、查询(1)

      Java 程序员 后端

      SQL Server 高性能写入的一些总结

      Java 程序员 后端

      SQL的单表查询

      Java 程序员 后端

      SymmetricDS 数据库双向同步开源软件入门

      Java 程序员 后端

      volatile关键字的原理和要避免的误区

      Java 程序员 后端

      Swagger 3

      Java 程序员 后端

      官宣!Apache ShardingSphere 5.0.0 正式发布

      SphereEx

      Java 数据库 Apache ShardingSphere

      Win10安装Tomcat服务器与配置环境变量

      Java 程序员 后端

      SSM框架示例(适合新手)(1)

      Java 程序员 后端

      T-SQL——数据透视和逆透视

      Java 程序员 后端

      this与super关键字(阿里巴巴面试竟然问道这个了……今天把它盘透彻了!

      Java 程序员 后端

      两强联手,百度智能云和中电互联打造自主可控工业互联网联合实验室

      百度大脑

      人工智能 百度

      Volatile:内存屏障原理应该没有比这篇文章讲的更清楚了

      Java 程序员 后端

      告别AI模型黑盒子:可解释的神经网络研究

      索信达控股

      机器学习 模型 可解释模型 可解释机器学习

      Vue学习之基础入门

      Java 程序员 后端

      windows7 本地搭建ELK 收集项目运行日志

      Java 程序员 后端

      SSM框架示例(适合新手)

      Java 程序员 后端

      使用JDBC操作SAP云平台上的HANA数据库

      汪子熙

      JDBC Cloud SAP 11月日更

      “AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!_AI&大模型_褚杏娟_InfoQ精选文章