大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

Mistral Voxtral 是 OpenAI Whisper 和其他 ASR 工具的开放权重竞争对手

  • 2025-07-25
    北京
  • 本文字数:1086 字

    阅读完需:约 4 分钟

大小:551.12K时长:03:08
Mistral Voxtral是OpenAI Whisper和其他ASR工具的开放权重竞争对手

Mistral 发布了Voxtral,这是一个用于语音识别(ASR)应用的大型语言模型。这些应用寻求整合更先进的 LLM 能力,而不只是实现简单的转录功能。对于模型的两个变体Voxtral Mini(3B)Voxtral Small(24B),Mistral 已经遵循 Apache 2.0 许可发布了权重。

 

根据 Mistral 的说法,Voxtral 填补了传统 ASR 系统和更先进的基于 LLM 的模型之间的空白。传统 ASR 系统可以提供成本效益高的转录,但缺乏语义理解,而基于 LLM 的模型既提供转录又提供语言理解。虽然与 GPT-4o mini Transcribe、Gemini 2.5 Flash 等其他解决方案提供的功能类似,但 Voxtral 的优势在于其模型权重公开,提高了部署灵活性,并且支持不同的成本模型。

 

除了可以本地部署外,还可以通过Mistral提供的API访问这些新模型。其 API 还提供了一个针对转录做过优化的 Voxtral Mini 定制版本,能帮助降低推理成本和延迟。

 

Voxtral 支持 32K 令牌的上下文,使其能够转录长达 30 分钟的音频,或理解长达 40 分钟的音频。作为基于 LLM 的模型,它天然适用于基于音频内容的问答和摘要任务,不需要将 ASR 系统与语言模型串联。此外,它还支持根据用户的口头意图执行后端函数、工作流或 API 调用。像 Mistral 的其他模型一样,Voxtral 原生支持多语言和自动语言检测,而且后一个功能针对欧洲语言做了优化。不用说,Voxtral 保留了其基础模型的纯文本能力,可以作为纯文本 LLM 使用。

 

Mistral 声称,在仅转录用例中,其模型在成本和性能方面优于 OpenAI Whisper、ElevenLabs Scribe 和 Gemini 2.5 Flash 等其他解决方案。

 

Voxtral 全面超越了目前领先的开源语音转录模型 Whisper large-v3。在所有任务中,它都击败了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash,并在英语短文和 Mozilla Common Voice 上取得了一流的成绩,超越了 ElevenLabs Scribe,展示了其强大的多语言能力。

 

在音频理解方面,凭借其 LLM 基础,Voxtral 可以直接从语音中回答问题。与其他基于 LLM 的语音识别模型相比,这是一种与众不同的方法。例如,NVIDIA NeMo Canary-Qwen-2.5BIBM的Granite Speech有两种不同的模式 ASR 和 LLM,可以在不同的阶段组合使用,例如使用 LLM 来总结 ASR 步骤生成的文本输出。

 

根据 Mistral 自己的基准测试,Voxtral Small 在多个任务中可与 GPT-4o-mini 和 Gemini 2.5 Flash 相媲美,并在语音翻译方面超越了两者。

 

除了提供 Voxtral 下载用于本地部署或通过 API 使用外,Mistral 还提供了专门针对企业客户的额外功能,包括支持生产规模的私有部署、特定领域的微调和高级用例,如说话人识别、情感检测、对话分割等。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/07/mistral-voxtral-audio-speech-llm/

2025-07-25 10:155331

评论

发布
暂无评论

出海正当时,博联智能携手火山引擎加速全球化布局

新消费日报

纯CSS实现有趣emoji切换开关

南城FE

CSS 前端

Chrome Extension 开发中的 Tab 操作与实践

FunTester

《Programming from the Ground Up》阅读笔记:p117-p146

codists

汇编 assembly 编程人

携手长江存储,构建高性能分布式存储

XSKY星辰天合

iLogtail 进化论:重塑可观测采集的技术边界

阿里巴巴云原生

阿里云 云原生 iLogtail

“你好BOE”重磅亮相首届上海国际光影节 打造“艺术x科技”顶级影像盛宴

爱极客侠

火山引擎携手领克汽车和英特尔,以技术+场景推动汽车智能体行业应用创新

新消费日报

电商发展新趋势:阿里巴巴商品详情API返回值的深度利用

技术冰糖葫芦

API Gateway API 接口 API 测试 API 优先

阿里云 SAE Web:百毫秒高弹性的实时事件中心的架构和挑战

阿里巴巴云原生

阿里云 Serverless 云原生

求解智能韧性,华为用三道方程写下答案

脑极体

通信

Pencils Protocol生态经济全面运转,持续通缩的DAPP潜力颇大

BlockChain先知

Pencils Protocol 全面推动市场,低流通的 DAPP 将持续通缩

加密眼界

即时通讯软件:推动企业沟通变革的数字化利器

BeeWorks

企业级移动应用管理平台哪个好?

BeeWorks

哈银消费金融合规经营,持续稳健发展

极客天地

AI西游记:企业如何闯过大模型的「火焰山」?

脑极体

AI

Star 3w+,向更安全、更泛化、更云原生的 Nacos3.0 演进

阿里巴巴云原生

阿里云 云原生 nacos

Pencils Protocol生态经济全面运转,持续通缩的DAPP潜力颇大

股市老人

700+开发者齐聚5城共探鸿蒙原生应用Codelabs

最新动态

XSKY 受邀华为全联接大会,共创鲲鹏原生全闪存储

XSKY星辰天合

鲲鹏;全闪 星飞

奖金高达 110 万元,Spatial Joy 2024 全球 AR 应用开发大赛启动

声网

Pencils Protocol 全面推动市场,低流通的 DAPP 将持续通缩

石头财经

免费赠书、多样字体、丰富音色,华为阅读带用户多读书、读好书

最新动态

加入极限科技(INFINI Labs),成为搜索运维工程师!

极限实验室

招聘 搜索引擎运维

神奇的css选择器

六哥是全栈

CSS 前端‘’

企业级移动门户的多样化选择:为数字化转型赋能

BeeWorks

RTE 大会报名丨智能编解码和 AI 生成视频 ,RTE2024 技术专场第五弹!

声网

助力数智化升级,XSKY 受邀出席武汉制造业论坛

XSKY星辰天合

智能制造 软件定义存储

Mistral Voxtral是OpenAI Whisper和其他ASR工具的开放权重竞争对手_AI&大模型_Sergio De Simone_InfoQ精选文章