10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

Mistral Voxtral 是 OpenAI Whisper 和其他 ASR 工具的开放权重竞争对手

  • 2025-07-25
    北京
  • 本文字数:1086 字

    阅读完需:约 4 分钟

大小:551.12K时长:03:08
Mistral Voxtral是OpenAI Whisper和其他ASR工具的开放权重竞争对手

Mistral 发布了Voxtral,这是一个用于语音识别(ASR)应用的大型语言模型。这些应用寻求整合更先进的 LLM 能力,而不只是实现简单的转录功能。对于模型的两个变体Voxtral Mini(3B)Voxtral Small(24B),Mistral 已经遵循 Apache 2.0 许可发布了权重。

 

根据 Mistral 的说法,Voxtral 填补了传统 ASR 系统和更先进的基于 LLM 的模型之间的空白。传统 ASR 系统可以提供成本效益高的转录,但缺乏语义理解,而基于 LLM 的模型既提供转录又提供语言理解。虽然与 GPT-4o mini Transcribe、Gemini 2.5 Flash 等其他解决方案提供的功能类似,但 Voxtral 的优势在于其模型权重公开,提高了部署灵活性,并且支持不同的成本模型。

 

除了可以本地部署外,还可以通过Mistral提供的API访问这些新模型。其 API 还提供了一个针对转录做过优化的 Voxtral Mini 定制版本,能帮助降低推理成本和延迟。

 

Voxtral 支持 32K 令牌的上下文,使其能够转录长达 30 分钟的音频,或理解长达 40 分钟的音频。作为基于 LLM 的模型,它天然适用于基于音频内容的问答和摘要任务,不需要将 ASR 系统与语言模型串联。此外,它还支持根据用户的口头意图执行后端函数、工作流或 API 调用。像 Mistral 的其他模型一样,Voxtral 原生支持多语言和自动语言检测,而且后一个功能针对欧洲语言做了优化。不用说,Voxtral 保留了其基础模型的纯文本能力,可以作为纯文本 LLM 使用。

 

Mistral 声称,在仅转录用例中,其模型在成本和性能方面优于 OpenAI Whisper、ElevenLabs Scribe 和 Gemini 2.5 Flash 等其他解决方案。

 

Voxtral 全面超越了目前领先的开源语音转录模型 Whisper large-v3。在所有任务中,它都击败了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash,并在英语短文和 Mozilla Common Voice 上取得了一流的成绩,超越了 ElevenLabs Scribe,展示了其强大的多语言能力。

 

在音频理解方面,凭借其 LLM 基础,Voxtral 可以直接从语音中回答问题。与其他基于 LLM 的语音识别模型相比,这是一种与众不同的方法。例如,NVIDIA NeMo Canary-Qwen-2.5BIBM的Granite Speech有两种不同的模式 ASR 和 LLM,可以在不同的阶段组合使用,例如使用 LLM 来总结 ASR 步骤生成的文本输出。

 

根据 Mistral 自己的基准测试,Voxtral Small 在多个任务中可与 GPT-4o-mini 和 Gemini 2.5 Flash 相媲美,并在语音翻译方面超越了两者。

 

除了提供 Voxtral 下载用于本地部署或通过 API 使用外,Mistral 还提供了专门针对企业客户的额外功能,包括支持生产规模的私有部署、特定领域的微调和高级用例,如说话人识别、情感检测、对话分割等。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/07/mistral-voxtral-audio-speech-llm/

2025-07-25 10:155179

评论

发布
暂无评论

Linux之ss命令

入门小站

Linux

理解Restful风格

蜜糖的代码注释

RESTful 接口规范 REST API 3月月更

豆瓣9.6分,Scala编程圣经第5版重磅来袭!

博文视点Broadview

HarmonyOS UI组件在线预览,程序员直呼“不要太方便~”

HarmonyOS开发者

UI HarmonyOS

31 家企业入选阿里云首期云原生加速器,共建云原生行业新生态

阿里巴巴云原生

阿里云 云原生 云原生加速器 招募 行业生态

优雅的编码习惯总是让人心情愉悦(Shell篇)

XinXing

Shell Code 优雅 脚本 规范

java培训:Redis和Mysql数据怎么保持一致

@零度

MySQL redis JAVA开发

在 Nebula K8s 集群中使用 nebula-spark-connector 和 nebula-algorithm

NebulaGraph

数据库 开源 分布式系统 图数据库

这场汇聚行业顶级大咖的Meetup,有哪些不容错过的干货?| IDP Meetup 01

Baihai IDP

人工智能 AI 生态 Meetup

CNI 这么多,怎么选?| 容器网络系列第1期

BoCloud博云

Kubernetes 容器云 cni 容器网络平台

大数据Flink培训:维表Join/双流Join的方法

@零度

flink join 大数据开发

海外主机是什么意思?与国内主机有什么区别?

行云管家

服务器 主机 服务器运维 海外 主机运维

黄东旭当选 CCF 数据库专业委员会、开源发展委员会、大数据专家委员会执行委员

PingCAP

面试官:对于宏任务和微任务,你知道多少?

是乃德也是Ned

JavaScript 面试 前端 ES6 Promise

Promise静态四兄弟,你学会了吗?

战场小包

JavaScript 前端 Promise 3月月更

恒源云(GpuShare)_加速pytorch训练的方法来喽~

恒源云

深度学习 PyTorch

声网崩溃数据的自动化闭环处理

声网

自动化 测试 Dev for Dev

墨天轮国产数据库沙龙 | 胡津铭:时序数据库DolphinDB,从量化金融到万物互联

墨天轮

数据库 时序数据库 DolphinDB 国产数据库

云管理平台有哪些?建议选择哪家?

行云管家

云计算 多云 云管理

程序设计优化之管道数据流

有道技术团队

OpenHarmony开源开发者成长计划 | 知识赋能第四期课程——标准系统HDF开发

Anna

直播 赋能 OpenHarmony

云原生小课堂 | Envoy请求流程源码解析(二):请求解析

York

云原生 istio 网络 envoy Service Mesh (ASM)

AI算力加速之道

安第斯智能云

人工智能 深度学习 异构计算

一文带你了解动态数组方法实现

xiaoyu

数据结构 算法 数组 java; 动态数组

如何高效完成ECS多环境部署?

阿里云云效

阿里云 云原生 开发 部署与维护 ECS

Go学习笔记——条件判断if

为自己带盐

Go 学习笔记 3月月更

web前端培训:react基础面试题分享

@零度

前端开发 React

web技术分享| WebRTC控制摄像机平移、倾斜和缩放

anyRTC开发者

前端 音视频 WebRTC 摄像头 web技术分享

虎符交易所完成2月HOO回购 HOO单月涨幅高达40%

区块链前沿News

Hoo 虎符交易所 平台币

upload上传文件类型的限制的几种方式(element)

lo

JavaScript

作为前端上传图片的两种方法

小学僧

3月程序媛福利 3月月更

Mistral Voxtral是OpenAI Whisper和其他ASR工具的开放权重竞争对手_AI&大模型_Sergio De Simone_InfoQ精选文章