阿里云ODPS普惠算力再升级,Data+AI全产品降价低至59元! 了解详情
写点什么

Mistral Voxtral 是 OpenAI Whisper 和其他 ASR 工具的开放权重竞争对手

  • 2025-07-25
    北京
  • 本文字数:1086 字

    阅读完需:约 4 分钟

大小:551.12K时长:03:08
Mistral Voxtral是OpenAI Whisper和其他ASR工具的开放权重竞争对手

Mistral 发布了Voxtral,这是一个用于语音识别(ASR)应用的大型语言模型。这些应用寻求整合更先进的 LLM 能力,而不只是实现简单的转录功能。对于模型的两个变体Voxtral Mini(3B)Voxtral Small(24B),Mistral 已经遵循 Apache 2.0 许可发布了权重。

 

根据 Mistral 的说法,Voxtral 填补了传统 ASR 系统和更先进的基于 LLM 的模型之间的空白。传统 ASR 系统可以提供成本效益高的转录,但缺乏语义理解,而基于 LLM 的模型既提供转录又提供语言理解。虽然与 GPT-4o mini Transcribe、Gemini 2.5 Flash 等其他解决方案提供的功能类似,但 Voxtral 的优势在于其模型权重公开,提高了部署灵活性,并且支持不同的成本模型。

 

除了可以本地部署外,还可以通过Mistral提供的API访问这些新模型。其 API 还提供了一个针对转录做过优化的 Voxtral Mini 定制版本,能帮助降低推理成本和延迟。

 

Voxtral 支持 32K 令牌的上下文,使其能够转录长达 30 分钟的音频,或理解长达 40 分钟的音频。作为基于 LLM 的模型,它天然适用于基于音频内容的问答和摘要任务,不需要将 ASR 系统与语言模型串联。此外,它还支持根据用户的口头意图执行后端函数、工作流或 API 调用。像 Mistral 的其他模型一样,Voxtral 原生支持多语言和自动语言检测,而且后一个功能针对欧洲语言做了优化。不用说,Voxtral 保留了其基础模型的纯文本能力,可以作为纯文本 LLM 使用。

 

Mistral 声称,在仅转录用例中,其模型在成本和性能方面优于 OpenAI Whisper、ElevenLabs Scribe 和 Gemini 2.5 Flash 等其他解决方案。

 

Voxtral 全面超越了目前领先的开源语音转录模型 Whisper large-v3。在所有任务中,它都击败了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash,并在英语短文和 Mozilla Common Voice 上取得了一流的成绩,超越了 ElevenLabs Scribe,展示了其强大的多语言能力。

 

在音频理解方面,凭借其 LLM 基础,Voxtral 可以直接从语音中回答问题。与其他基于 LLM 的语音识别模型相比,这是一种与众不同的方法。例如,NVIDIA NeMo Canary-Qwen-2.5BIBM的Granite Speech有两种不同的模式 ASR 和 LLM,可以在不同的阶段组合使用,例如使用 LLM 来总结 ASR 步骤生成的文本输出。

 

根据 Mistral 自己的基准测试,Voxtral Small 在多个任务中可与 GPT-4o-mini 和 Gemini 2.5 Flash 相媲美,并在语音翻译方面超越了两者。

 

除了提供 Voxtral 下载用于本地部署或通过 API 使用外,Mistral 还提供了专门针对企业客户的额外功能,包括支持生产规模的私有部署、特定领域的微调和高级用例,如说话人识别、情感检测、对话分割等。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/07/mistral-voxtral-audio-speech-llm/

2025-07-25 10:156

评论

发布
暂无评论

常用的CTR领域经典机器模型介绍

永荣带你玩转昇腾

推荐系统网络序言

永荣带你玩转昇腾

《算法导论(第4版)》阅读笔记:p127-p133

codists

算法

鸿蒙开发实现图片上传(上传用户头像)

星河特战队员

社交 DevEco Studio 鸿蒙开发 harmoyos

AppAgentx 开源AI手机操控使用分享

溪抱鱼

android AI 自动化测试

基于Pytorch 在昇腾上实现GCN图神经网络

永荣带你玩转昇腾

【CodeBuddy】挑战一句话开发一个完整项目之:设计稿智能配色引擎

jimaks

CodeBuddy首席试玩官

【CodeBuddy】三分钟开发一个实用小功能之:CSS渐变背景生成器

jimaks

CodeBuddy首席试玩官

全面解析 Coco AI,一款开源、免费的智能搜索与知识库工具

极限实验室

直播 CocoAI

以利他共赢实现和合共生珠海万达商管东区品牌峰会圆满举办

新消费日报

PID参数自整定终极指南:基于继电反馈的智能调节算法详解

芯动大师

PID 自整定

CodeBuddy助力数学教学:数学老师直呼内行!

jimaks

CodeBuddy首席试玩官

昇腾910-PyTorch 实现 Vggnet图像分类

永荣带你玩转昇腾

Cursor要付费,何不试试Trae | Trae 带你做游戏

六月的雨在InfoQ

MCP Trae MCP Server AI 编程

🌟【一句话生成个人主页】CodeBuddy Craft让设计师瞳孔地震!

jimaks

CodeBuddy首席试玩官

华为智能电动DriveONE:重新定义新能源汽车的续航与安全

科技热闻

【CodeBuddy】一句话开发一个完整项目之:响应式栅格布局生成器

jimaks

CodeBuddy首席试玩官

【CodeBuddy】三分钟开发一个实用小功能之:CSS代码瘦身专家

jimaks

CodeBuddy首席试玩官

楼宇大堂数字LED显示屏定制指南

Dylan

商业 LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家

使用手势自定义截取视频时间组件

鸿蒙 开发工具 HarmonyOS HarmonyOS NEXT 实践分享

《腾讯Codebuddy+AI让古诗文教学开挂!语文老师3步搞定智能备课系统》

jimaks

CodeBuddy首席试玩官

🌟 CodeBuddy Craft智能体实战:开发一个智能语法检查工具

jimaks

CodeBuddy首席试玩官

模型并行之Embedding表

永荣带你玩转昇腾

PyTorch 实现FCN网络用于图像语义分割

永荣带你玩转昇腾

长连接网关技术专题(十二):大模型时代多模型AI网关的架构设计与实现

JackJiang

网络编程 IM 即时通讯IM

CodeBuddy Craft智能体测评|对话式编程太香了!🚀

jimaks

CodeBuddy首席试玩官

【CodeBuddy】三分钟开发一个实用小功能之:贪吃蛇经典复刻版

jimaks

CodeBuddy首席试玩官

Centos或Linux编写一键式Shell脚本删除用户、组指导手册

刘大猫

人工智能 Linux centos Shell shell脚本

鲲鹏开发者峰会2025成功举办

科技热闻

学习如何构建高效AI Agent

Bruce Talk

AI

【CodeBuddy】挑战一句话开发一个完整项目之:React表单验证系统

jimaks

CodeBuddy首席试玩官

Mistral Voxtral是OpenAI Whisper和其他ASR工具的开放权重竞争对手_AI&大模型_Sergio De Simone_InfoQ精选文章