写点什么

Mistral 新发两款 AI 推理模型,但多项基准测试不及 Gemini 2.5 Pro

  • 2025-06-11
    北京
  • 本文字数:1135 字

    阅读完需:约 4 分钟

大小:515.15K时长:02:55
Mistral 新发两款AI 推理模型,但多项基准测试不及Gemini 2.5 Pro

美国当地时间 6 月 10 日上午,欧洲 AI 独角兽 Mistral 宣布推出其首个推理模型系列 Magistral。与其他推理模型(例如 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro)一样,Magistral 也采用逐步解决问题的方式,以提高数学和物理等主题的一致性和可靠性。

 

Hugging Face 地址:https://huggingface.co/mistralai/Magistral-Small-2506

 

Magistral 系列模型有两种版本:Magistral Small (24B 参数开源版本)和 Magistral Medium(功能更强大的企业版本)。

 


Magistral Small 拥有 240 亿个参数,可从 AI 开发平台 Hugging Face 下载,并遵循 Apache 2.0 许可证。

 

Magistral Medium 是一款功能更强大的模型,目前已在 Mistral 的 Le Chat 聊天机器人平台、该公司的 API 以及第三方合作伙伴云平台上提供预览。

 

Magistral 系列模型的特点是什么?

 

Mistral 在博客文章中写道:“Magistral 适用于各种企业用例,从结构化计算和程序逻辑到决策树和基于规则的系统。这些模型针对多步骤逻辑进行了微调,提高了可解释性,并以用户的语言提供了可追溯的思维过程。”

 

此外,该模型擅长在多种语言中保持高保真推理。Magistral 尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和简体中文等语言的推理。

 

Mistral 成立于 2023 年,是一家前沿模型实验室,致力于构建一系列人工智能服务,包括前面提到的 Le Chat 和移动应用程序。该公司得到了 General Catalyst 等风险投资机构的支持,迄今已筹集超过 11 亿欧元(约合 12.4 亿美元)。

 

尽管 Mistral 资源雄厚,但在某些领域,例如推理模型开发,Mistral 仍落后于其他领先的人工智能实验室。从 Mistral 自身的基准测试来看,Magistral 似乎也并非一款特别有竞争力的版本。

 

在 GPQA Diamond 和 AIME(评估模型的物理、数学和科学技能的测试)中,Magistral Medium 的表现不及 Gemini 2.5 Pro 和 Anthropic 的 Claude Opus 4。在流行的编程基准 LiveCodeBench 上,Magistral Medium 也未能超越 Gemini 2.5 Pro。

 

或许正因如此,Mistral 在其博客文章中大力宣扬 Magistral 的其他优势。Mistral 声称,Magistral 在 Le Chat 中提供答案的速度是竞争对手的“10 倍”。

 

该公司在其帖子中写道:“基于我们的旗舰模型,Magistral 旨在用于研究、战略规划、运营优化和数据驱动的决策,无论是执行多因素风险评估和建模,还是在约束条件下计算最佳交付窗口。”

 

Magistral 的发布是在 Mistral 推出“氛围编码”客户端 Mistral Code 之后。在此之前的几周,  Mistral 推出了几款专注于编码的模型,并推出了 Le Chat Enterprise,这是一项面向企业的聊天机器人服务,提供 AI 代理构建器等工具,并将 Mistral 的模型与 Gmail 和 SharePoint 等第三方服务集成。

 

参考链接:

https://mistral.ai/news/magistral

2025-06-11 09:283
用户头像
李冬梅 加V:busulishang4668

发布了 1092 篇内容, 共 706.3 次阅读, 收获喜欢 1243 次。

关注

评论

发布
暂无评论

年末冲刺!坚持就是胜利,12月日更来啦~

InfoQ写作社区官方

12月日更 热门活动

贝壳Flutter调试工具-FDB

贝壳大前端技术团队

flutter 调试工具 内存监控

『上线』OpenSEC SIGs 终于成立了!

SphereEx

开源社区 ShardingSphere SphereEx 中文开源 OpenSEC

博文推荐|使用 Pulsar IO 打造流数据管道

Apache Pulsar

Java 开源 架构 云原生 Apache Pulsar

WeTest小程序质量专项方案推出,小程序异常监控内测招募中

WeTest

架构实战营模块五作业

spark99

架构实战营

官宣!yMatrix 完成A轮融资,打造超融合时序数据库!

YMatrix 超融合数据库

社区知识库|常见问答 FAQ 集合第 1 期

Apache Pulsar

Java 开源 Apache Pulsar 代码人生 社区

用户登录设计之双token设计

CRMEB

【量化】股市技术分析利器之TA-Lib(二)

恒生LIGHT云社区

量化投资 量化

《鱿鱼游戏》中的 AI 是绝对公平的吗?

澳鹏Appen

人工智能 人脸识别

ZEGO 即构科技首发适配鸿蒙系统的 Express SDK 1.0 版本,并正式启动公测!(内附源码)

ZEGO即构

音视频 HarmonyOS 鸿蒙开发 即构科技

使用 @Transactional 时常犯的N种错误

程序猿DD

spring Spring Boot 事务

【量化】股市技术分析利器之TA-Lib(一)

恒生LIGHT云社区

量化投资 量化

【有奖征文】第一届 OceanBase 技术征文大赛来啦!

OceanBase 数据库

数据库 开源 征文大赛 oceanbase

打造全新批流融合:详解 Apache Flink 1.14.0 发布的 Pulsar Flink Connector

Apache Pulsar

Java 大数据 分布式 云原生 Apache Pulsar

云原生:Docker实战之容器命令解析(附视频教程)

息之

Docker 视频课 解析

长连接网关技术专题(六):石墨文档单机50万WebSocket长连接架构实践

JackJiang

websocket 即时通讯 IM 网关

高校企业双向赋能,首届飞桨启航菁英计划圆满结束

百度大脑

人工智能 百度 飞桨

后端开发实战总结 | 签约计划第二季|后端

阿Q说代码

内容合集 签约计划第二季 技术专题合集

四步做好Code Review

百度开发者中心

Code Review

Linux/CentOS/Ubuntu查看文件内容命令总结

入门小站

Linux

大规模 K8s 集群管理经验分享 · 上篇

尔达Erda

程序员 云原生 k8s K8s 多集群管理 经验分享、

科技热点周刊|PHP 基金会成立、Rust 内讧、Amazon Linux 2022 预览版发布

青云技术社区

云计算

如何设置Activity背景颜色与ProgressBar进度条颜色

Changing Lin

12月日更

如何更快上手使用 OceanBase 社区版?

OceanBase 数据库

数据库 直播 课程 OceanBase 开源

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化

尔达Erda

云计算 大数据 spark 开发者 感悟

Istio 实践手册 | 迎接新一代微服务架构

xcbeyond

istio 服务网格 28天写作 12月日更 Istio 实践手册

秒过!度目智慧通行让常态化防疫更高效

百度大脑

人工智能 人脸识别

秒过!度目智慧通行让常态化防疫更高效

百度开发者中心

人工智能

搭建企业级实时数据融合平台难吗?Tapdata + ES + MongoDB 就能搞定

tapdata

Mistral 新发两款AI 推理模型,但多项基准测试不及Gemini 2.5 Pro_生成式 AI_李冬梅_InfoQ精选文章