写点什么

蚂蚁开源万亿参数思考模型 Ring-1T,综合能力逼近 GPT-5、数学能力对标 IMO 银牌  

  • 2025-10-15
    北京
  • 本文字数:1202 字

    阅读完需:约 4 分钟

大小:644.14K时长:03:39
蚂蚁开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5、数学能力对标IMO银牌   

整理 | 华卫


10 月 14 日凌晨,蚂蚁集团正式推出万亿参数思考模型 Ring-1T,并全面开源模型权重、训练配方。Ring-1T 在 9 月 30 日开源的预览版 Ring-1T-preview 基础上,持续扩展大规模可验证奖励强化学习(RLVR)训练,进一步激发万亿基座的自然语言推理能力,并通过 RLHF 训练完善模型通用能力,在各项任务榜单上表现更加均衡。

 

为了持续激发 Ring-1T 的数学等复杂推理能力,此次百灵团队挑战了难度更高的 IMO2025(国际数学奥利匹克)赛题,将 Ring-1T 接入多智能体框架 AWorld,使用纯自然语言推理进行解题。实验结果显示,Ring-1T 仅用一次解出了第 1、3、4、5 题,相当于 IMO 银牌水平,成为首个能拿 IMO 国际奥数奖的开源系统。Ring-1T 在第三次尝试 IMO 时对第 2 题几何证明也给出了接近满分的证明过程,在顶流大模型几乎全军覆没的第六题中将答案收敛到与 Gemini 2.5 Pro 相同的“4048”(正确答案为 2112)。

 

作为一款思考模型,Ring-1T 也表现出了极佳的通用能力,在“人类偏好对齐”测试 Arena-Hard V2 中,Ring-1T 以 81.59 的成功率居于开源模型榜首,逼近 GPT-5-Thinking(High)82.91 的成绩。在面向严谨领域的医疗问答 HealthBench 测评中,Ring-1T 也以最高分取得开源领域最佳。

 

(Ring-1T 与业界代表性思考模型的性能横评)

 

万亿参数思考模型训练最大难题是训推精度差异,即训练阶段与推理阶段因实现细节差异导致的训练和推理精度不一致,进而导致训练崩溃。在 Ring-1T 模型中,蚂蚁采用了自研的“棒冰(icepop)”算法来应对这项行业难题,即用带掩码的双向截断技术把训练-推理分布差异冻结在低水位,确保长序列、长周期训练不崩。

 

此外,应对万亿参数模型强化学习训练,蚂蚁还自研了高性能强化学习系统 ASystem(其中包含已开源的高性能强化学习框架 AReaL),特别针对万亿参数模型的显存管理和训推权重交换问题做了精细的优化,实现了单机显存碎片秒级回收、权重零冗余交换,把大规模 RL 训练稳定跑成日常。


 

(图左:GRPO 训推差异随着训练成指数上升,icepop 较为平稳;图右:训推差异最大值,GRPO 随着训练上升非常明显,icepop 维持在较低水位)

 

本次发布的 Ring-1T 模型继续采用 Ling 2.0 架构的 1T base 模型做后训练,Ling 2.0 采用了包括高度稀疏的 MoE 架构,1/32 的专家激活比、FP8 混合精度、MTP 等诸多特性实现高效训练与推理。在后训练阶段,蚂蚁百灵团队通过 LongCoT-SFT + RLVR + RLHF 多阶段训练,显著提升了模型的复杂推理能力以及指令跟随和创意写作等通用能力。

 

据百灵团队透露,Ring-1T 模型是其在万亿思考模型上的首次尝试,蚂蚁百灵团队会在后续的版本中继续完善模型性能。目前,用户可通过 HuggingFace、魔搭社区下载模型,并通过蚂蚁百宝箱等平台在线体验。

 

截止目前,蚂蚁百灵大模型已经发布 18 款模型,已形成从 160 亿总参数到 1 万亿总参数的大语言模型产品矩阵,其中两款万亿参数模型—万亿参数通用大语言模型 Ling-1T、万亿参数思考模型 Ring-1T。随着两款万亿参数模型的发布,百灵大模型也正式步入 2.0 阶段。

2025-10-15 11:186

评论

发布
暂无评论

大模型,为什么非得和「弱智吧」过不去?

白洞计划

AI

大模型的现在进行时:走出对话框,走向产业端

Alter

如何基于Django中的WebSockets和异步视图来实现实时通信功能

不在线第一只蜗牛

django Web websockets

深度解析阿里巴巴1688商品详情API返回值:商品信息一手掌握

技术冰糖葫芦

拓展海外社媒市场,云手机抢占先机

Ogcloud

云手机 海外云手机 云手机海外版 社媒运营 社媒营销

云电脑如何选择使用?详细介绍

青椒云云电脑

云电脑 云电脑平台

软件测试学习笔记丨业务架构分析工具 plantuml

测试人

软件测试

网站打开504,504网关超时可能是哪些原因导致

德迅云安全杨德俊

IAM赋能数字化转型

芯盾时代

iam 统一身份认证 业务安全

香港的云主机怎么样?为网站运行和响应有哪些帮助?

一只扑棱蛾子

云主机

Pandabuy VS Wegobuy哪个代购系统强?类似软件哪家公司开发

tbapi

淘宝代购系统 Pandabuy wegobuy 代购系统

实践探讨Python如何进行异常处理与日志记录

华为云开发者联盟

Python 开发 华为云 华为云开发者联盟 企业号2024年4月PK榜

揭露 FileSystem 引起的线上 JVM 内存溢出问题

vivo互联网技术

JVM 内存泄露 OOM 内存溢出

性能问题分析优化实践案例

老张

高可用 性能优化 性能测试 稳定性保障

提示词优化的自动化探索:Automated Prompt Engineering

Baihai IDP

程序员 AI 企业号 4 月 PK 榜 Prompt Engineering 提示词工程

领跑数字化转型:望繁信科技荣登「2024智能自动化技术商Top 15」榜单

望繁信科技

数据挖掘 流程挖掘 流程资产 流程智能

青椒云桌面玩转AIGC应用部署

青椒云云电脑

云桌面 AIGC

HCDG天津站精彩回顾 | AI高效开发, ModelArts技术动手工作坊

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号2024年4月PK榜 华为云HCDG

人民日报媒体技术公司与华为达成鸿蒙合作 助力超千家党媒单位融入鸿蒙生态

最新动态

TikTok海外直播网络专线的优势有哪些?

Ogcloud

海外直播专线 海外直播 tiktok直播 tiktok直播专线 海外直播网络

用一个数据库解决80%的问题,YashanDB数据库一体化的实践

极客天地

易点天下入选虎嗅智库大鲸榜AIGC数字营销技术商TOP15

新消费日报

文本向量化模型新突破——acge_text_embedding 勇夺 C-MTEB 榜首

中杯可乐多加冰

rag 文本嵌入模型 文本向量化 文本嵌入

《2023年度快团团行业洞察报告》呱呱爆品重磅发布!

极客天地

大模型,为什么非得和「弱智吧」过不去?

脑极体

AI

蚂蚁开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5、数学能力对标IMO银牌   _AI&大模型_华卫_InfoQ精选文章