Mistral 新发两款AI 推理模型，但多项基准测试不及Gemini 2.5 Pro

美国当地时间 6 月 10 日上午，欧洲 AI 独角兽 Mistral 宣布推出其首个推理模型系列 Magistral。与其他推理模型（例如 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro）一样，Magistral 也采用逐步解决问题的方式，以提高数学和物理等主题的一致性和可靠性。

Hugging Face 地址：https://huggingface.co/mistralai/Magistral-Small-2506

Magistral 系列模型有两种版本：Magistral Small （24B 参数开源版本）和 Magistral Medium（功能更强大的企业版本）。

Magistral Small 拥有 240 亿个参数，可从 AI 开发平台 Hugging Face 下载，并遵循 Apache 2.0 许可证。

Magistral Medium 是一款功能更强大的模型，目前已在 Mistral 的 Le Chat 聊天机器人平台、该公司的 API 以及第三方合作伙伴云平台上提供预览。

Magistral 系列模型的特点是什么？

Mistral 在博客文章中写道：“Magistral 适用于各种企业用例，从结构化计算和程序逻辑到决策树和基于规则的系统。这些模型针对多步骤逻辑进行了微调，提高了可解释性，并以用户的语言提供了可追溯的思维过程。”

此外，该模型擅长在多种语言中保持高保真推理。Magistral 尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和简体中文等语言的推理。

Mistral 成立于 2023 年，是一家前沿模型实验室，致力于构建一系列人工智能服务，包括前面提到的 Le Chat 和移动应用程序。该公司得到了 General Catalyst 等风险投资机构的支持，迄今已筹集超过 11 亿欧元（约合 12.4 亿美元）。

尽管 Mistral 资源雄厚，但在某些领域，例如推理模型开发，Mistral 仍落后于其他领先的人工智能实验室。从 Mistral 自身的基准测试来看，Magistral 似乎也并非一款特别有竞争力的版本。

在 GPQA Diamond 和 AIME（评估模型的物理、数学和科学技能的测试）中，Magistral Medium 的表现不及 Gemini 2.5 Pro 和 Anthropic 的 Claude Opus 4。在流行的编程基准 LiveCodeBench 上，Magistral Medium 也未能超越 Gemini 2.5 Pro。

或许正因如此，Mistral 在其博客文章中大力宣扬 Magistral 的其他优势。Mistral 声称，Magistral 在 Le Chat 中提供答案的速度是竞争对手的“10 倍”。

该公司在其帖子中写道：“基于我们的旗舰模型，Magistral 旨在用于研究、战略规划、运营优化和数据驱动的决策，无论是执行多因素风险评估和建模，还是在约束条件下计算最佳交付窗口。”

Magistral 的发布是在 Mistral 推出“氛围编码”客户端 Mistral Code 之后。在此之前的几周， Mistral 推出了几款专注于编码的模型，并推出了 Le Chat Enterprise，这是一项面向企业的聊天机器人服务，提供 AI 代理构建器等工具，并将 Mistral 的模型与 Gmail 和 SharePoint 等第三方服务集成。

参考链接：

https://mistral.ai/news/magistral

创作场景

Mistral 新发两款 AI 推理模型，但多项基准测试不及 Gemini 2.5 Pro