写点什么

Mistral 新发两款 AI 推理模型,但多项基准测试不及 Gemini 2.5 Pro

  • 2025-06-11
    北京
  • 本文字数:1135 字

    阅读完需:约 4 分钟

大小:515.15K时长:02:55
Mistral 新发两款AI 推理模型,但多项基准测试不及Gemini 2.5 Pro

美国当地时间 6 月 10 日上午,欧洲 AI 独角兽 Mistral 宣布推出其首个推理模型系列 Magistral。与其他推理模型(例如 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro)一样,Magistral 也采用逐步解决问题的方式,以提高数学和物理等主题的一致性和可靠性。

 

Hugging Face 地址:https://huggingface.co/mistralai/Magistral-Small-2506

 

Magistral 系列模型有两种版本:Magistral Small (24B 参数开源版本)和 Magistral Medium(功能更强大的企业版本)。

 


Magistral Small 拥有 240 亿个参数,可从 AI 开发平台 Hugging Face 下载,并遵循 Apache 2.0 许可证。

 

Magistral Medium 是一款功能更强大的模型,目前已在 Mistral 的 Le Chat 聊天机器人平台、该公司的 API 以及第三方合作伙伴云平台上提供预览。

 

Magistral 系列模型的特点是什么?

 

Mistral 在博客文章中写道:“Magistral 适用于各种企业用例,从结构化计算和程序逻辑到决策树和基于规则的系统。这些模型针对多步骤逻辑进行了微调,提高了可解释性,并以用户的语言提供了可追溯的思维过程。”

 

此外,该模型擅长在多种语言中保持高保真推理。Magistral 尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和简体中文等语言的推理。

 

Mistral 成立于 2023 年,是一家前沿模型实验室,致力于构建一系列人工智能服务,包括前面提到的 Le Chat 和移动应用程序。该公司得到了 General Catalyst 等风险投资机构的支持,迄今已筹集超过 11 亿欧元(约合 12.4 亿美元)。

 

尽管 Mistral 资源雄厚,但在某些领域,例如推理模型开发,Mistral 仍落后于其他领先的人工智能实验室。从 Mistral 自身的基准测试来看,Magistral 似乎也并非一款特别有竞争力的版本。

 

在 GPQA Diamond 和 AIME(评估模型的物理、数学和科学技能的测试)中,Magistral Medium 的表现不及 Gemini 2.5 Pro 和 Anthropic 的 Claude Opus 4。在流行的编程基准 LiveCodeBench 上,Magistral Medium 也未能超越 Gemini 2.5 Pro。

 

或许正因如此,Mistral 在其博客文章中大力宣扬 Magistral 的其他优势。Mistral 声称,Magistral 在 Le Chat 中提供答案的速度是竞争对手的“10 倍”。

 

该公司在其帖子中写道:“基于我们的旗舰模型,Magistral 旨在用于研究、战略规划、运营优化和数据驱动的决策,无论是执行多因素风险评估和建模,还是在约束条件下计算最佳交付窗口。”

 

Magistral 的发布是在 Mistral 推出“氛围编码”客户端 Mistral Code 之后。在此之前的几周,  Mistral 推出了几款专注于编码的模型,并推出了 Le Chat Enterprise,这是一项面向企业的聊天机器人服务,提供 AI 代理构建器等工具,并将 Mistral 的模型与 Gmail 和 SharePoint 等第三方服务集成。

 

参考链接:

https://mistral.ai/news/magistral

2025-06-11 09:284025
用户头像
李冬梅 加V:busulishang4668

发布了 1150 篇内容, 共 770.2 次阅读, 收获喜欢 1282 次。

关注

评论

发布
暂无评论

查找两个单向链表合并元素

leis

架构师训练营第八周作业

Geek_2dfa9a

一个文学青年的至暗时刻

Geek_4z9ami

反思 就业

EasyDL全新升级,文心(ERNIE)3项能力助力快速定制企业级NLP模型

百度大脑

人工智能 nlp 百度大脑

信创舆情一线--工信部开展APP侵害用户权益专项整治行动

统小信uos

架构师训练营 - 第八周 - 学习总结

韩挺

架构师培训 -08 数据结构算法,网络通信协议,非阻塞网络I/O,数据库原理

刘敏

架构师训练营 - 第八周 - 作业

韩挺

第八周作业

李白

作业:链表交叉点

考尔菲德

作业-第八周

superman

Java十大常用框架介绍(spring系+dubbo+RabbitMQ+Ehcache+redis)

BUZHIDAO

第八周课后总结

晨光

架构师课作业 - 第八周

Tulane

从 1.9 到 1.11,聊聊 PyFlink 的核心功能演进(附 Demo 代码)

Apache Flink

flink

第八周总结

李白

六大自动化测试技巧

禅道项目管理

自动化 测试

网络通讯

陈皮

第八周作业

腾志文(清样)

第八周课程总结

考尔菲德

第8周

李朋

总结

李朋

套娃成功!在《我的世界》里运行Win95、玩游戏,软件和教程现已公开!

程序员生活志

游戏 我的世界

第八周课后作业

晨光

架构师训练营第八周总结

Geek_2dfa9a

架构师第八周

Tulane

架构师训练营——第8周作业

jiangnanage

HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第3章初识CSS

Geek_8dbdc1

CSS

HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第4章CSS文本样式

Geek_8dbdc1

CSS

HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第5章CSS盒子模型

Geek_8dbdc1

CSS

躬履艰难,其节乃见:华为陈黎芳眼中的全球责任

脑极体

Mistral 新发两款AI 推理模型,但多项基准测试不及Gemini 2.5 Pro_生成式 AI_李冬梅_InfoQ精选文章