
Mistral 发布了Voxtral,这是一个用于语音识别(ASR)应用的大型语言模型。这些应用寻求整合更先进的 LLM 能力,而不只是实现简单的转录功能。对于模型的两个变体Voxtral Mini(3B)和Voxtral Small(24B),Mistral 已经遵循 Apache 2.0 许可发布了权重。
根据 Mistral 的说法,Voxtral 填补了传统 ASR 系统和更先进的基于 LLM 的模型之间的空白。传统 ASR 系统可以提供成本效益高的转录,但缺乏语义理解,而基于 LLM 的模型既提供转录又提供语言理解。虽然与 GPT-4o mini Transcribe、Gemini 2.5 Flash 等其他解决方案提供的功能类似,但 Voxtral 的优势在于其模型权重公开,提高了部署灵活性,并且支持不同的成本模型。
除了可以本地部署外,还可以通过Mistral提供的API访问这些新模型。其 API 还提供了一个针对转录做过优化的 Voxtral Mini 定制版本,能帮助降低推理成本和延迟。
Voxtral 支持 32K 令牌的上下文,使其能够转录长达 30 分钟的音频,或理解长达 40 分钟的音频。作为基于 LLM 的模型,它天然适用于基于音频内容的问答和摘要任务,不需要将 ASR 系统与语言模型串联。此外,它还支持根据用户的口头意图执行后端函数、工作流或 API 调用。像 Mistral 的其他模型一样,Voxtral 原生支持多语言和自动语言检测,而且后一个功能针对欧洲语言做了优化。不用说,Voxtral 保留了其基础模型的纯文本能力,可以作为纯文本 LLM 使用。
Mistral 声称,在仅转录用例中,其模型在成本和性能方面优于 OpenAI Whisper、ElevenLabs Scribe 和 Gemini 2.5 Flash 等其他解决方案。
Voxtral 全面超越了目前领先的开源语音转录模型 Whisper large-v3。在所有任务中,它都击败了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash,并在英语短文和 Mozilla Common Voice 上取得了一流的成绩,超越了 ElevenLabs Scribe,展示了其强大的多语言能力。
在音频理解方面,凭借其 LLM 基础,Voxtral 可以直接从语音中回答问题。与其他基于 LLM 的语音识别模型相比,这是一种与众不同的方法。例如,NVIDIA NeMo Canary-Qwen-2.5B和IBM的Granite Speech有两种不同的模式 ASR 和 LLM,可以在不同的阶段组合使用,例如使用 LLM 来总结 ASR 步骤生成的文本输出。
根据 Mistral 自己的基准测试,Voxtral Small 在多个任务中可与 GPT-4o-mini 和 Gemini 2.5 Flash 相媲美,并在语音翻译方面超越了两者。
除了提供 Voxtral 下载用于本地部署或通过 API 使用外,Mistral 还提供了专门针对企业客户的额外功能,包括支持生产规模的私有部署、特定领域的微调和高级用例,如说话人识别、情感检测、对话分割等。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接:
https://www.infoq.com/news/2025/07/mistral-voxtral-audio-speech-llm/
评论