大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

Mistral 新发两款 AI 推理模型,但多项基准测试不及 Gemini 2.5 Pro

  • 2025-06-11
    北京
  • 本文字数:1135 字

    阅读完需:约 4 分钟

大小:515.15K时长:02:55
Mistral 新发两款AI 推理模型,但多项基准测试不及Gemini 2.5 Pro

美国当地时间 6 月 10 日上午,欧洲 AI 独角兽 Mistral 宣布推出其首个推理模型系列 Magistral。与其他推理模型(例如 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro)一样,Magistral 也采用逐步解决问题的方式,以提高数学和物理等主题的一致性和可靠性。

 

Hugging Face 地址:https://huggingface.co/mistralai/Magistral-Small-2506

 

Magistral 系列模型有两种版本:Magistral Small (24B 参数开源版本)和 Magistral Medium(功能更强大的企业版本)。

 


Magistral Small 拥有 240 亿个参数,可从 AI 开发平台 Hugging Face 下载,并遵循 Apache 2.0 许可证。

 

Magistral Medium 是一款功能更强大的模型,目前已在 Mistral 的 Le Chat 聊天机器人平台、该公司的 API 以及第三方合作伙伴云平台上提供预览。

 

Magistral 系列模型的特点是什么?

 

Mistral 在博客文章中写道:“Magistral 适用于各种企业用例,从结构化计算和程序逻辑到决策树和基于规则的系统。这些模型针对多步骤逻辑进行了微调,提高了可解释性,并以用户的语言提供了可追溯的思维过程。”

 

此外,该模型擅长在多种语言中保持高保真推理。Magistral 尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和简体中文等语言的推理。

 

Mistral 成立于 2023 年,是一家前沿模型实验室,致力于构建一系列人工智能服务,包括前面提到的 Le Chat 和移动应用程序。该公司得到了 General Catalyst 等风险投资机构的支持,迄今已筹集超过 11 亿欧元(约合 12.4 亿美元)。

 

尽管 Mistral 资源雄厚,但在某些领域,例如推理模型开发,Mistral 仍落后于其他领先的人工智能实验室。从 Mistral 自身的基准测试来看,Magistral 似乎也并非一款特别有竞争力的版本。

 

在 GPQA Diamond 和 AIME(评估模型的物理、数学和科学技能的测试)中,Magistral Medium 的表现不及 Gemini 2.5 Pro 和 Anthropic 的 Claude Opus 4。在流行的编程基准 LiveCodeBench 上,Magistral Medium 也未能超越 Gemini 2.5 Pro。

 

或许正因如此,Mistral 在其博客文章中大力宣扬 Magistral 的其他优势。Mistral 声称,Magistral 在 Le Chat 中提供答案的速度是竞争对手的“10 倍”。

 

该公司在其帖子中写道:“基于我们的旗舰模型,Magistral 旨在用于研究、战略规划、运营优化和数据驱动的决策,无论是执行多因素风险评估和建模,还是在约束条件下计算最佳交付窗口。”

 

Magistral 的发布是在 Mistral 推出“氛围编码”客户端 Mistral Code 之后。在此之前的几周,  Mistral 推出了几款专注于编码的模型,并推出了 Le Chat Enterprise,这是一项面向企业的聊天机器人服务,提供 AI 代理构建器等工具,并将 Mistral 的模型与 Gmail 和 SharePoint 等第三方服务集成。

 

参考链接:

https://mistral.ai/news/magistral

2025-06-11 09:283931
用户头像
李冬梅 加V:busulishang4668

发布了 1121 篇内容, 共 738.5 次阅读, 收获喜欢 1267 次。

关注

评论

发布
暂无评论

StarRocks 技术内幕 | 多表物化视图的设计与实现

StarRocks

数据库 数据分析

李白:你的模型权重很不错,可惜被我没收了

OneFlow

人工智能 深度学习 模型

细说React组件性能优化

xiaofeng

React

深度剖析React懒加载原理

xiaofeng

React

亚洲合作资金项目“上合国家软件产业和数据治理合作论坛”在京召开

极客天地

Java Web(十)Filter和Listener

浅辄

javaWeb filter listener 11月月更

CANN 6.0来了,硬核技术抢先看

华为云开发者联盟

人工智能 华为云 昇腾 CANN 6.0

深度探讨react-hooks实现原理

xiaofeng

React

一文彻底读懂webpack常用配置

Geek_02d948

webpack

如何通过Java代码压缩PDF文档?

在下毛毛雨

Java PDF 压缩PDF

从简历被拒到收割8个大厂offer,我只用了三个月的时间成功逆袭

程序知音

Java java面试 后端技术 Java面试题 Java面试八股文

[力扣] 剑指 Offer 第一天 - 包含min函数的栈

陈明勇

Go 数据结构与算法 力扣 11月月更

Prometheus 监测 RocketMQ 最佳实践

Apache RocketMQ

RocketMQ #java #运维 消息序列

python小知识-python 文件操作

AIWeker

Python python小知识 11月月更

瓴羊Quick BI,自助式报表分析工具让企业运营更高效

巷子

5.图学习【参考资料2】-知识补充与node2vec代码注解

汀丶人工智能

图神经网络 11月月更

python小知识-模块

AIWeker

Python python小知识 11月月更

智慧物流数字孪生系统

申扬科技

智慧物流 数字孪生

于雨荣获 2022 年度 "OSCAR 尖峰开源人物"

apache/dubbo-go

云管平台厂家联系方式谁有?咨询电话多少?

行云管家

云计算 云服务 企业上云 云管平台 云资源

大麦 Android 选座场景性能优化全解析

阿里巴巴终端技术

android 性能优化 客户端

Java Web(十一)Ajax&Axios&JSON

浅辄

json ajax javaWeb axios 11月月更

webpack高级配置

Geek_02d948

webpack

爱了!阿里技术官亲笔的Java快速面试指南,熬夜啃完剑指大厂

程序知音

Java java面试 java架构 后端技术 Java面试八股文

国有银行发挥普惠金融“头雁”效应,业务成果领跑商业银行

易观分析

普惠金融

前端食堂技术周刊第 59 期:GitHub Universe 2022、Rome v10、Parcel v2.8.0、可扩展的 CSS 演变、Solid Start Beta

童欧巴

CSS vim Github Action

HA软件是做什么的?主要作用是什么?

行云管家

高可用 ha 双机热备

高频量化合约对冲交易软件开发源代码

开发微hkkf5566

白嫖一款免费的GIF录制软件,好用到飞起,萌新小白装机必备。

bug菌

GIF gif录制 视频录制

webpack配置完全指南

Geek_02d948

webpack

万物互联,合作共赢:中国物联网行业发展洞察2022

易观分析

物联网 报告

Mistral 新发两款AI 推理模型,但多项基准测试不及Gemini 2.5 Pro_生成式 AI_李冬梅_InfoQ精选文章