阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

Mistral 新发两款 AI 推理模型,但多项基准测试不及 Gemini 2.5 Pro

  • 2025-06-11
    北京
  • 本文字数:1135 字

    阅读完需:约 4 分钟

大小:515.15K时长:02:55
Mistral 新发两款AI 推理模型,但多项基准测试不及Gemini 2.5 Pro

美国当地时间 6 月 10 日上午,欧洲 AI 独角兽 Mistral 宣布推出其首个推理模型系列 Magistral。与其他推理模型(例如 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro)一样,Magistral 也采用逐步解决问题的方式,以提高数学和物理等主题的一致性和可靠性。

 

Hugging Face 地址:https://huggingface.co/mistralai/Magistral-Small-2506

 

Magistral 系列模型有两种版本:Magistral Small (24B 参数开源版本)和 Magistral Medium(功能更强大的企业版本)。

 


Magistral Small 拥有 240 亿个参数,可从 AI 开发平台 Hugging Face 下载,并遵循 Apache 2.0 许可证。

 

Magistral Medium 是一款功能更强大的模型,目前已在 Mistral 的 Le Chat 聊天机器人平台、该公司的 API 以及第三方合作伙伴云平台上提供预览。

 

Magistral 系列模型的特点是什么?

 

Mistral 在博客文章中写道:“Magistral 适用于各种企业用例,从结构化计算和程序逻辑到决策树和基于规则的系统。这些模型针对多步骤逻辑进行了微调,提高了可解释性,并以用户的语言提供了可追溯的思维过程。”

 

此外,该模型擅长在多种语言中保持高保真推理。Magistral 尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和简体中文等语言的推理。

 

Mistral 成立于 2023 年,是一家前沿模型实验室,致力于构建一系列人工智能服务,包括前面提到的 Le Chat 和移动应用程序。该公司得到了 General Catalyst 等风险投资机构的支持,迄今已筹集超过 11 亿欧元(约合 12.4 亿美元)。

 

尽管 Mistral 资源雄厚,但在某些领域,例如推理模型开发,Mistral 仍落后于其他领先的人工智能实验室。从 Mistral 自身的基准测试来看,Magistral 似乎也并非一款特别有竞争力的版本。

 

在 GPQA Diamond 和 AIME(评估模型的物理、数学和科学技能的测试)中,Magistral Medium 的表现不及 Gemini 2.5 Pro 和 Anthropic 的 Claude Opus 4。在流行的编程基准 LiveCodeBench 上,Magistral Medium 也未能超越 Gemini 2.5 Pro。

 

或许正因如此,Mistral 在其博客文章中大力宣扬 Magistral 的其他优势。Mistral 声称,Magistral 在 Le Chat 中提供答案的速度是竞争对手的“10 倍”。

 

该公司在其帖子中写道:“基于我们的旗舰模型,Magistral 旨在用于研究、战略规划、运营优化和数据驱动的决策,无论是执行多因素风险评估和建模,还是在约束条件下计算最佳交付窗口。”

 

Magistral 的发布是在 Mistral 推出“氛围编码”客户端 Mistral Code 之后。在此之前的几周,  Mistral 推出了几款专注于编码的模型,并推出了 Le Chat Enterprise,这是一项面向企业的聊天机器人服务,提供 AI 代理构建器等工具,并将 Mistral 的模型与 Gmail 和 SharePoint 等第三方服务集成。

 

参考链接:

https://mistral.ai/news/magistral

2025-06-11 09:283785
用户头像
李冬梅 加V:busulishang4668

发布了 1096 篇内容, 共 710.3 次阅读, 收获喜欢 1246 次。

关注

评论

发布
暂无评论

想要优化K8S集群管理?Cluster API帮你忙 | K8S Internals系列第5期

BoCloud博云

云原生 容器云 K8s 多集群管理

大数据培训和大学相关专业哪个更好

小谷哥

【软通动力鸿湖万联扬帆系列“竞”开发板试用体验】折腾”竞“开发板

白晓明

OpenHarmony "竞"开发板体验

java培训软件开发技术收费标准

小谷哥

阿里P8手写Spring Cloud Alibaba实战学习手册,架构师养成必备

Geek_0c76c3

Java 数据库 开源 程序员 架构

YYEVA动效播放器--动态元素完美呈现新方案

百度Geek说

移动端 企业号九月金秋榜 动画特效 AE插件

从0到1上手阿里云服务器ECS(一)

六月的雨在InfoQ

云服务器 ECS 9月月更 LAMP 部署Mysql

Python 中的 super 函数怎么学,怎么解?

梦想橡皮擦

Python 9月月更

北京Java培训收费标准是什么

小谷哥

Ventana Research|是时候把指标中台纳入企业数据架构了!

Kyligence

数据架构 数据管理 指标中台

因为K8s,阿鹏遇到了人生中第一次职业危机....

嘉为蓝鲸

#运维

Python 几行代码实现一键抠图,收费应用 BYEBYE

梦想橡皮擦

9月月更

这篇文章教会我用 Python 读取 PDF 文件【收藏即会】

梦想橡皮擦

9月月更

中秋发祝福?一套程序让你成为【相亲相爱一家人】群里最靓的仔

梦想橡皮擦

Python 9月月更

Vue入门指北——css中的js变量

Augus

Vue 9月月更

跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA

阿里云大数据AI技术

深度学习 PyTorch 图文检索 企业号九月金秋榜

用区块链思维让可信数据流动起来

旺链科技

区块链 产业区块链 供应链金融 企业号九月金秋榜

你看过字符画吗?用 Python 自己实现一个吧

梦想橡皮擦

9月月更

前端培训学习有哪值得注意的呢?

小谷哥

火速收藏!HUAWEI神级 SpringBoot 进阶笔记,竟一夜上到Github榜一

Geek_0c76c3

Java 数据库 开源 程序员 架构

ESP32-C3 学习测试 蓝牙 篇(一、认识 ESP-IDF 的蓝牙框架、简单的了解蓝牙协议栈)

矜辰所致

蓝牙 ESP32-C3 9月月更 ESP-IDF

4步成功将三方库——speexdsp移植到OpenHarmony

OpenHarmony开发者

OpenHarmony

都 2022 年了,你真的会用 Python 的 pip 吗?

梦想橡皮擦

9月月更

本周三,全球C++大会8大主题、近40场专题演讲盛大开启,龙蜥2位技术专家参加

OpenAnolis小助手

工具链 ebpf 2022 龙蜥 C++及系统软件技术大会

Java SE 19 虚拟线程

钟奕礼

java;

5 行 Python 爬虫代码,就能采集每日资讯@_@

梦想橡皮擦

9月月更

Vue3入门指北(一)组件API风格

Augus

Vue 9月月更

Vue入门指北——渲染函数和jsx

Augus

Vue 9月月更

BGP劫持原理及如何防御

郑州埃文科技

网络安全 BGP 安全防御

前端培训学习哪种方式比较靠谱

小谷哥

Mistral 新发两款AI 推理模型,但多项基准测试不及Gemini 2.5 Pro_生成式 AI_李冬梅_InfoQ精选文章