50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

蚂蚁开源万亿参数思考模型 Ring-1T,综合能力逼近 GPT-5、数学能力对标 IMO 银牌  

  • 2025-10-15
    北京
  • 本文字数:1202 字

    阅读完需:约 4 分钟

大小:644.14K时长:03:39
蚂蚁开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5、数学能力对标IMO银牌   

整理 | 华卫


10 月 14 日凌晨,蚂蚁集团正式推出万亿参数思考模型 Ring-1T,并全面开源模型权重、训练配方。Ring-1T 在 9 月 30 日开源的预览版 Ring-1T-preview 基础上,持续扩展大规模可验证奖励强化学习(RLVR)训练,进一步激发万亿基座的自然语言推理能力,并通过 RLHF 训练完善模型通用能力,在各项任务榜单上表现更加均衡。

 

为了持续激发 Ring-1T 的数学等复杂推理能力,此次百灵团队挑战了难度更高的 IMO2025(国际数学奥利匹克)赛题,将 Ring-1T 接入多智能体框架 AWorld,使用纯自然语言推理进行解题。实验结果显示,Ring-1T 仅用一次解出了第 1、3、4、5 题,相当于 IMO 银牌水平,成为首个能拿 IMO 国际奥数奖的开源系统。Ring-1T 在第三次尝试 IMO 时对第 2 题几何证明也给出了接近满分的证明过程,在顶流大模型几乎全军覆没的第六题中将答案收敛到与 Gemini 2.5 Pro 相同的“4048”(正确答案为 2112)。

 

作为一款思考模型,Ring-1T 也表现出了极佳的通用能力,在“人类偏好对齐”测试 Arena-Hard V2 中,Ring-1T 以 81.59 的成功率居于开源模型榜首,逼近 GPT-5-Thinking(High)82.91 的成绩。在面向严谨领域的医疗问答 HealthBench 测评中,Ring-1T 也以最高分取得开源领域最佳。

 

(Ring-1T 与业界代表性思考模型的性能横评)

 

万亿参数思考模型训练最大难题是训推精度差异,即训练阶段与推理阶段因实现细节差异导致的训练和推理精度不一致,进而导致训练崩溃。在 Ring-1T 模型中,蚂蚁采用了自研的“棒冰(icepop)”算法来应对这项行业难题,即用带掩码的双向截断技术把训练-推理分布差异冻结在低水位,确保长序列、长周期训练不崩。

 

此外,应对万亿参数模型强化学习训练,蚂蚁还自研了高性能强化学习系统 ASystem(其中包含已开源的高性能强化学习框架 AReaL),特别针对万亿参数模型的显存管理和训推权重交换问题做了精细的优化,实现了单机显存碎片秒级回收、权重零冗余交换,把大规模 RL 训练稳定跑成日常。


 

(图左:GRPO 训推差异随着训练成指数上升,icepop 较为平稳;图右:训推差异最大值,GRPO 随着训练上升非常明显,icepop 维持在较低水位)

 

本次发布的 Ring-1T 模型继续采用 Ling 2.0 架构的 1T base 模型做后训练,Ling 2.0 采用了包括高度稀疏的 MoE 架构,1/32 的专家激活比、FP8 混合精度、MTP 等诸多特性实现高效训练与推理。在后训练阶段,蚂蚁百灵团队通过 LongCoT-SFT + RLVR + RLHF 多阶段训练,显著提升了模型的复杂推理能力以及指令跟随和创意写作等通用能力。

 

据百灵团队透露,Ring-1T 模型是其在万亿思考模型上的首次尝试,蚂蚁百灵团队会在后续的版本中继续完善模型性能。目前,用户可通过 HuggingFace、魔搭社区下载模型,并通过蚂蚁百宝箱等平台在线体验。

 

截止目前,蚂蚁百灵大模型已经发布 18 款模型,已形成从 160 亿总参数到 1 万亿总参数的大语言模型产品矩阵,其中两款万亿参数模型—万亿参数通用大语言模型 Ling-1T、万亿参数思考模型 Ring-1T。随着两款万亿参数模型的发布,百灵大模型也正式步入 2.0 阶段。

2025-10-15 11:182413

评论

发布
暂无评论

深入研究:小红书笔记详情API接口详解

tbapi

小红书笔记详情接口 小红书API 小红书笔记详情api 小红书笔记采集

如何高效智能地进行设备数据采集?

万界星空科技

数据采集 mes 万界星空科技mes 设备数据采集 设备管理软件

LightWave 3D 2020 for mac 附激活秘钥 3D动画制作

Rose

DistilQwen2.5-DS3-0324发布:知识蒸馏+快思考=更高效解决推理难题

阿里云大数据AI技术

阿里云 LLM PAI 大模型蒸馏 DistilQwen2.5

中国游戏出海迎来新机遇,腾讯游戏安全ACE助力应对安全挑战

新消费日报

淘宝天猫商品数据爬取全攻略:官方API与非官方接口双管齐下

代码忍者

淘宝API接口

健康管理行业使用堡垒机场景简单了解

行云管家

网络安全 信息安全 数据安全 健康管理

珠海等保测评公司名称以及地址看这里!

行云管家

等保 等保评测

Tampermonkey for Mac(油猴Safari浏览器辅助插件)中文版

Rose

Prometheus配置docker采集器

秃头小帅oi

长安马自达全球车型MAZDA 6e启航欧洲,全球化战略迈入新里程

极客天地

Java程序使用预处理语句的性能提升

秃头小帅oi

GenAI 时代,数据唾手可得,但真正的挑战已经转变...

Baihai IDP

人工智能 程序员 AI LLM GenAI

Amazon Q 从入门到精通 – 加速构建亚马逊云基础设施

亚马逊云科技 (Amazon Web Services)

DolphinScheduler开发者必看!IDEA本地调试实战指南

白鲸开源

开源 Apache DolphinScheduler 任务调度

拥抱国产化:转转APP的鸿蒙NEXT端开发尝鲜之旅

JackJiang

网络编程 即时通讯 IM

开发者必备的这些API协议,Apipost都支持!

数据追梦人

如何灵活处理参数值?Apipost自定义函数功能让调试更简单高效!

数据追梦人

MacBooster 8 mac版 苹果电脑一站式系统清理维护工具

Rose

做好批次与保质期管理,告别库存混乱与货物过期痛点!

积木链小链

数字化转型 智能制造 批次管理

基于 Flink 的中国电信星海时空数据多引擎实时改造

Apache Flink

大数据 flink 实时计算

豆瓣均分8.5+,想提升效能水平的技术领导都在读(部分可下载!)

思码逸研发效能

团队管理 个人成长 读书 研发效能 思码逸

英特尔为酷睿 Ultra 200S-K 处理器发布 Boost 超频配置文件, 游戏性能提升 7%

E科讯

开源之夏2025 Apache DolphinScheduler课题宣讲

白鲸开源

大数据 开源 Apache DolphinScheduler 任务调度 开源之夏

OCR技术难点解读:数学公式检测与识别

合合技术团队

人工智能 算法 OCR OCR识别 #大数据

Java程序使用预处理语句的性能提升

GreatSQL

如何在 NocoBase 中实现 CRM 销售漏斗可视化?

NocoBase

开源 低代码 零代码 销售 CRM

AI与智能金融服务:如何利用AI分析大数据预测金融市场波动?

天津汇柏科技有限公司

人工智能 AI 人工智能

MCP协议重大升级,Spring AI Alibaba联合Higress发布业界首个Streamable HTTP实现方案

阿里巴巴云原生

阿里云 云原生

用友助力郴电国际司库建设项目成功上线,战略合作开启数智化转型新征程

用友智能财务

蚂蚁开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5、数学能力对标IMO银牌   _AI&大模型_华卫_InfoQ精选文章