
Mistral AI 发布了Magistral,这是一个为透明、多步骤推理而构建的新模型家族。它提供了开放和企业两个版本,支持结构化逻辑、多语言输出和可跟踪的决策制定。
Magistral 旨在为法律、金融、医疗保健、物流和软件等领域的复杂任务提供结构化、可解释的推理。它支持多步骤思维链生成,涵盖多种语言,包括阿拉伯语、中文、法语、德语和西班牙语。
基准测试显示了其竞争力的表现:
Magistral Medium 在 2024 年的 AIME 上得分为 73.6%,多数投票时达到 90% @64
Magistral Small 分别达到了 70.7%和 83.3%
该模型强调逻辑的清晰性和逐步的可追溯性,使其适用于需要审计性的场景,从监管合规到战略建模。
Mistral 还将速度作为一个关键的差异化因素。据报道,与标准模型相比,Magistral 在 Le Chat 中的 Flash Answers 系统实现了高达 10 倍的令牌吞吐量,支持实时交互和反馈循环。然而,早期用户反馈反映了对性能和可用性之间权衡的不同看法。一位 Reddit 用户写道:
为了 10%的改进而进行 10 倍推理,而通用性却下降了。我个人看不出这个用例的用途。
API 定价基于纯粹从 token 使用中获得的已经提高的利润,对我来说没有意义。我测试了几个小时,但我再也不会使用它们了,与 Mistral Small 3.1 不同,它将保留在我的硬盘上。
人们还对上下文长度限制表示担忧。虽然许多企业级模型正在将上下文限制推向 100K 的 token 以上,但 Magistral 目前提供 40K 个 token 上下文。一家 AI 解决方案公司的首席运营官 Romain Chaumais评论道:
恭喜你!但上下文只有 40K 个 token,我想用例是非常有限的,不是吗?Mistral AI——你们计划将上下文推至 200K 吗?
该模型的训练重点是深度推理、RLHF(从人类反馈中强化学习)和多步骤逻辑的透明度。Mistral 的配套研究论文概述了其训练方法、基础设施以及优化推理性能的见解。
Magistral Small 可通过Hugging Face进行自托管部署。与此同时,Magistral Medium 可以在Le Chat中访问,并计划进一步推广到 Azure AI、IBM WatsonX 和 Google Cloud Marketplace 等平台上。
Mistral 表示,它的目标是对 Magistral 家族进行快速迭代。预计早期社区兴趣将集中在构建开放权重的 Small 模型上。
原文链接:
评论