写点什么

蚂蚁开源万亿参数思考模型 Ring-1T,综合能力逼近 GPT-5、数学能力对标 IMO 银牌  

  • 2025-10-15
    北京
  • 本文字数:1202 字

    阅读完需:约 4 分钟

大小:644.14K时长:03:39
蚂蚁开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5、数学能力对标IMO银牌   

整理 | 华卫


10 月 14 日凌晨,蚂蚁集团正式推出万亿参数思考模型 Ring-1T,并全面开源模型权重、训练配方。Ring-1T 在 9 月 30 日开源的预览版 Ring-1T-preview 基础上,持续扩展大规模可验证奖励强化学习(RLVR)训练,进一步激发万亿基座的自然语言推理能力,并通过 RLHF 训练完善模型通用能力,在各项任务榜单上表现更加均衡。

 

为了持续激发 Ring-1T 的数学等复杂推理能力,此次百灵团队挑战了难度更高的 IMO2025(国际数学奥利匹克)赛题,将 Ring-1T 接入多智能体框架 AWorld,使用纯自然语言推理进行解题。实验结果显示,Ring-1T 仅用一次解出了第 1、3、4、5 题,相当于 IMO 银牌水平,成为首个能拿 IMO 国际奥数奖的开源系统。Ring-1T 在第三次尝试 IMO 时对第 2 题几何证明也给出了接近满分的证明过程,在顶流大模型几乎全军覆没的第六题中将答案收敛到与 Gemini 2.5 Pro 相同的“4048”(正确答案为 2112)。

 

作为一款思考模型,Ring-1T 也表现出了极佳的通用能力,在“人类偏好对齐”测试 Arena-Hard V2 中,Ring-1T 以 81.59 的成功率居于开源模型榜首,逼近 GPT-5-Thinking(High)82.91 的成绩。在面向严谨领域的医疗问答 HealthBench 测评中,Ring-1T 也以最高分取得开源领域最佳。

 

(Ring-1T 与业界代表性思考模型的性能横评)

 

万亿参数思考模型训练最大难题是训推精度差异,即训练阶段与推理阶段因实现细节差异导致的训练和推理精度不一致,进而导致训练崩溃。在 Ring-1T 模型中,蚂蚁采用了自研的“棒冰(icepop)”算法来应对这项行业难题,即用带掩码的双向截断技术把训练-推理分布差异冻结在低水位,确保长序列、长周期训练不崩。

 

此外,应对万亿参数模型强化学习训练,蚂蚁还自研了高性能强化学习系统 ASystem(其中包含已开源的高性能强化学习框架 AReaL),特别针对万亿参数模型的显存管理和训推权重交换问题做了精细的优化,实现了单机显存碎片秒级回收、权重零冗余交换,把大规模 RL 训练稳定跑成日常。


 

(图左:GRPO 训推差异随着训练成指数上升,icepop 较为平稳;图右:训推差异最大值,GRPO 随着训练上升非常明显,icepop 维持在较低水位)

 

本次发布的 Ring-1T 模型继续采用 Ling 2.0 架构的 1T base 模型做后训练,Ling 2.0 采用了包括高度稀疏的 MoE 架构,1/32 的专家激活比、FP8 混合精度、MTP 等诸多特性实现高效训练与推理。在后训练阶段,蚂蚁百灵团队通过 LongCoT-SFT + RLVR + RLHF 多阶段训练,显著提升了模型的复杂推理能力以及指令跟随和创意写作等通用能力。

 

据百灵团队透露,Ring-1T 模型是其在万亿思考模型上的首次尝试,蚂蚁百灵团队会在后续的版本中继续完善模型性能。目前,用户可通过 HuggingFace、魔搭社区下载模型,并通过蚂蚁百宝箱等平台在线体验。

 

截止目前,蚂蚁百灵大模型已经发布 18 款模型,已形成从 160 亿总参数到 1 万亿总参数的大语言模型产品矩阵,其中两款万亿参数模型—万亿参数通用大语言模型 Ling-1T、万亿参数思考模型 Ring-1T。随着两款万亿参数模型的发布,百灵大模型也正式步入 2.0 阶段。

2025-10-15 11:182549

评论

发布
暂无评论

Dubbo 编程之夏报名启动了

阿里巴巴云原生

Kafka设计的基本原理

平凡人生

web前端培训React 泛型组件

@零度

前端开发 React

手机摄像头芯片主要有哪些?

InfoQ IT百科

手机运存与内存有什么区别?

InfoQ IT百科

观测云入驻阿里云计算巢,为用户构建稳定安全的云上连接

阿里云弹性计算

大数据培训Flink面试宝典

@零度

flink 大数据开发

CPU和GPU有什么区别?

InfoQ IT百科

如何写出有价值的竞品分析报告?

基调听云

竞品分析 基调听云

深入理解JMM-CPU多核硬件架构剖析及Java内存模型

janyxe

JVM cpu Java内存模型

nginx proxy_next_upstream 与openresty balancer.set_more_tries的使用

飞翔

nginx openresty

CrashSight 接入上报常见问题及解决方案

WeTest

射频芯片在手机上起到什么作用?

InfoQ IT百科

深度报告:异构时代,芯片需集成多个模板

Finovy Cloud

人工智能 云计算 gpu GPU服务器

真正的量子计算机触手可及!英特尔宣布规模化生产硅量子比特

科技新消息

Docker Compose 部署Kibana和 Elasticsearch本地集群 8.1.3

Geek漫游指南

elasticsearch

基于 TiDB 的 Apache APISIX 高可用配置中心的最佳实践

API7.ai 技术团队

微服务网关 api 网关 APISIX TiDB

APISIX jwt-auth 插件存在错误响应中泄露信息的风险公告(CVE-2022-29266)

API7.ai 技术团队

api 网关 APISIX CVE

手机刷新率越高越好吗?

InfoQ IT百科

云原生虚拟化:基于 Kubevirt 构建边缘计算实例

火山引擎边缘云

容器 k8s 边缘计算 Kubevirt

Gartner调查研究:中国的数字化发展较之世界水平如何?高性能计算能否占据主导地位?

GPU算力

GPU服务器 GPU算力

人为什么看不到真相?

源字节1号

网站开发

“开源之夏”活动火热报名中,丰厚奖金等你来拿!

云智慧AIOps社区

开源 活动 开源软件

量化系统开发,量化交易系统APP搭建

Geek_56201b

量化交易系统开发 量化交易源码 量化APP搭建

云融科技加入龙蜥社区,助力金融行业数字化转型

OpenAnolis小助手

数字化转型 龙蜥社区 CLA 云融科技

Talent Plan 学习营初体验:交流+坚持 开源协作课程学习的不二路径

PingCAP

手机摄像头越多拍照效果越好吗?

InfoQ IT百科

蚂蚁开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5、数学能力对标IMO银牌   _AI&大模型_华卫_InfoQ精选文章