2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Mistral 新发两款 AI 推理模型,但多项基准测试不及 Gemini 2.5 Pro

  • 2025-06-11
    北京
  • 本文字数:1135 字

    阅读完需:约 4 分钟

大小:515.15K时长:02:55
Mistral 新发两款AI 推理模型,但多项基准测试不及Gemini 2.5 Pro

美国当地时间 6 月 10 日上午,欧洲 AI 独角兽 Mistral 宣布推出其首个推理模型系列 Magistral。与其他推理模型(例如 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro)一样,Magistral 也采用逐步解决问题的方式,以提高数学和物理等主题的一致性和可靠性。

 

Hugging Face 地址:https://huggingface.co/mistralai/Magistral-Small-2506

 

Magistral 系列模型有两种版本:Magistral Small (24B 参数开源版本)和 Magistral Medium(功能更强大的企业版本)。

 


Magistral Small 拥有 240 亿个参数,可从 AI 开发平台 Hugging Face 下载,并遵循 Apache 2.0 许可证。

 

Magistral Medium 是一款功能更强大的模型,目前已在 Mistral 的 Le Chat 聊天机器人平台、该公司的 API 以及第三方合作伙伴云平台上提供预览。

 

Magistral 系列模型的特点是什么?

 

Mistral 在博客文章中写道:“Magistral 适用于各种企业用例,从结构化计算和程序逻辑到决策树和基于规则的系统。这些模型针对多步骤逻辑进行了微调,提高了可解释性,并以用户的语言提供了可追溯的思维过程。”

 

此外,该模型擅长在多种语言中保持高保真推理。Magistral 尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和简体中文等语言的推理。

 

Mistral 成立于 2023 年,是一家前沿模型实验室,致力于构建一系列人工智能服务,包括前面提到的 Le Chat 和移动应用程序。该公司得到了 General Catalyst 等风险投资机构的支持,迄今已筹集超过 11 亿欧元(约合 12.4 亿美元)。

 

尽管 Mistral 资源雄厚,但在某些领域,例如推理模型开发,Mistral 仍落后于其他领先的人工智能实验室。从 Mistral 自身的基准测试来看,Magistral 似乎也并非一款特别有竞争力的版本。

 

在 GPQA Diamond 和 AIME(评估模型的物理、数学和科学技能的测试)中,Magistral Medium 的表现不及 Gemini 2.5 Pro 和 Anthropic 的 Claude Opus 4。在流行的编程基准 LiveCodeBench 上,Magistral Medium 也未能超越 Gemini 2.5 Pro。

 

或许正因如此,Mistral 在其博客文章中大力宣扬 Magistral 的其他优势。Mistral 声称,Magistral 在 Le Chat 中提供答案的速度是竞争对手的“10 倍”。

 

该公司在其帖子中写道:“基于我们的旗舰模型,Magistral 旨在用于研究、战略规划、运营优化和数据驱动的决策,无论是执行多因素风险评估和建模,还是在约束条件下计算最佳交付窗口。”

 

Magistral 的发布是在 Mistral 推出“氛围编码”客户端 Mistral Code 之后。在此之前的几周,  Mistral 推出了几款专注于编码的模型,并推出了 Le Chat Enterprise,这是一项面向企业的聊天机器人服务,提供 AI 代理构建器等工具,并将 Mistral 的模型与 Gmail 和 SharePoint 等第三方服务集成。

 

参考链接:

https://mistral.ai/news/magistral

2025-06-11 09:284181
用户头像
李冬梅 加V:busulishang4668

发布了 1200 篇内容, 共 823.7 次阅读, 收获喜欢 1311 次。

关注

评论

发布
暂无评论

C/C++ Zlib库封装MyZip压缩类

不在线第一只蜗牛

c c++ 开源 编程语言

NFTScan 正式上线 Starknet NFTScan 浏览器和 NFT API 数据服务

NFT Research

NFT\ NFTScan nft工具

强大的Kubernetes工具的完整指南

互联网工科生

Kubernetes

打开浏览器,线上玩转C++

庄岩

c++ 在线编程 onlinegdb

为什么要在项目中使用TypeScript?

树上有只程序猿

typescript

增加外贸订单的实用外贸工具

九凌网络

软件定义汽车时代,代码质量先行!

安势信息

车联网 代码质量 汽车软件安全 代码质量检测工具

外贸人必须知道的20个WhatsApp实用技巧

九凌网络

白鸦11周年分享:把有赞做成智能化系统运营商

ToB行业头条

EAM与IOT融合,用友BIP资产云助力设备智慧运维!

用友BIP

资产管理

4天肝出一个数据应用,可能吗?| StartDT Hackathon

奇点云

操作系统 数据应用 奇点云

事项法会计:业财融合落地的基石

用友BIP

业财融合

JavaScript 的发展史你真的了解吗?

伤感汤姆布利柏

JavaScript 低代码 js

监守自盗,如何防范员工窃密?

尚思卓越

网络安全 信息安全

数据库安全运维系统厂家在深圳的有哪些?咨询电话多少?

行云管家

数据库 大数据 数据安全 数据库安全 数据安全运维

回归算法全解析!一文读懂机器学习中的回归模型

不在线第一只蜗牛

机器学习 算法 回归算法

分享一套生产管理MES系统的源代码,可以直接拿来搞钱的好项目

万界星空科技

开源 开源代码 MES系统 生产管理系统 开源mes

电机制造业mes,mes生产管理系统,免费电机mes

万界星空科技

电机 mes 制造业生产管理系统 直流电机 云mes

用友助力浙江省国贸供应链企业数智化管理水平提升!

用友BIP

企业数智化

两台电脑如何快速传输几百G文件,这款文件传输软件真快

镭速

大文件传输 传输大文件 文件传输工具

DAPP公排互助项目系统开发丨智能合约技术开发

l8l259l3365

用友助力中核集团新华发电斩获“IDC未来企业大奖”

用友BIP

企业数智化

[开源]MIT开源协议,前后端分离、后台通配权限管理系统

小狗围观科幻

CodeiumAI单元测试生成和覆盖率统计实践

lklmyy

单元测试 pytest AIGC CodiumAI

浩鲸科技:为什么要用雪花ID替代数据库自增ID?

王磊

Java 面试

3D模型渲染太耗电脑性能怎么办?

3D建模设计

3D渲染 GPU渲染 渲染调优 CPU渲染

Mistral 新发两款AI 推理模型,但多项基准测试不及Gemini 2.5 Pro_生成式 AI_李冬梅_InfoQ精选文章