写点什么

大模型每百天性能翻倍!清华团队“密度法则”登上 Nature 子刊

清华 TsinghuaNLP 团队

  • 2025-12-03
    北京
  • 本文字数:1667 字

    阅读完需:约 5 分钟

大模型每百天性能翻倍!清华团队“密度法则”登上 Nature 子刊

2020 年以来,OpenAI 提出的 Scaling Law 引领着大模型的快速发展 —— 模型参数和训练数据规模越大,产生的智能能力越强。然而进入 2025 年,训练开销不断扩增这一路径面临严峻的可持续发展问题。OpenAI 前首席科学家 Ilya Sutskever 在公开演讲中指出,随着互联网公开可获取的语料接近枯竭,大模型预训练将无法持续(“Pre-training as we know it will end”)。因此,大多研究者开始探索大模型的新的发展路径。


清华大学研究成果大模型“密度法则”(Densing Law) 给出了新的观察视角。近日,该成果正式发表于 Nature 子刊《自然·机器智能》(Nature Machine Intelligence),为理解大模型发展规律提供了新的维度。密度法则揭示了大语言模型的最大能力密度随时间呈指数级增长,2023 年 2 月至 2025 年 4 月,约每 3.5 个月翻一倍,这意味着每隔 3.5 个月,即可用一半参数量的模型实现当前最优性能



论文链接:https://www.nature.com/articles/s42256-025-01137-0


受“摩尔定律”启发的“密度法则”


回顾计算机发展史,在摩尔定律的指引下,半导体行业持续改进制造工艺、提升芯片电路密度,实现了计算设备从 27 吨的 ENIAC 到数百克的智能手机的跨越,最终带来算力普惠和信息革命。如今,全球拥有 13 亿台个人电脑、70 亿部智能手机、180 亿台 IoT 设备和 2000 亿颗正在运行的 CPU。摩尔定律的核心不是增大芯片尺寸,而是提升电路密度——单位面积容纳更多计算单元。


受此启发,研究团队提出:大模型发展同样可以从“能力密度”的角度来观察和理解。正如芯片行业通过提升电路密度实现了计算设备的小型化和普惠化,大模型也在通过提升能力密度实现高效化发展。


大模型密度法则:大模型能力密度随时间呈指数上升趋势


研究团队基于一个核心假设:采用相同制造工艺、充分训练的不同尺寸模型,其能力密度相同。在此基础上,研究团队选取基准模型并设定其密度为 1,作为衡量其他模型能力密度的基线。给定目标模型的能力密度被定义为:同能力的基准模型参数量与目标模型参数量的比值。



通过对 51 个近年来发布的开源大模型进行系统分析,研究团队发现了一个重要规律。大模型的最大能力密度随时间呈指数级增长,2023 年以来平均每 3.5 个月翻一倍。这意味着,随着「数据 - 算力 - 算法」的协同发展,可以用更少参数实现相同的智能水平。



根据密度定律,研究团队得出了若干重要推论。


推论 1:同能力模型的推理开销随时间指数级下降


一方面,密度法则指出同能力的大模型参数每 3.5 个月减半。同时在推理系统优化方面,摩尔定律驱动芯片算力持续增强,而模型量化、投机采样、显存优化等算法技术也在不断突破,相同推理成本下,能够运行的模型大小不断提升。实证数据显示,GPT-3.5 级模型 API 价格在 20 个月内下降 266.7 倍,约每 2.5 个月下降一倍。



推论 2:大模型能力密度正在加速增强


以 MMLU 为评测基准的统计显示,ChatGPT 发布前能力密度每 4.8 个月翻倍,而 ChatGPT 发布后能力密度每 3.2 个月翻倍,密度增强速度提升了 50%。这表明,随着大模型技术的成熟和开源生态的繁荣,能力密度提升正在加速。



推论 3:模型压缩算法并不总能增强模型能力密度


研究团队对比了多个模型与其压缩版本的能力密度,发现除了 Gemma-2-9B 以外,如 Llama-3.2-3B/1B、Llama-3.1-minitron-4B 等其他压缩模型的密度都低于原始模型。量化技术同样会降低模型性能和能力密度。这一发现揭示了当前模型压缩技术的局限性:压缩过程中较小模型的训练往往不够充分,无法达到最优密度。



推论 4:模型小型化揭示端侧智能巨大潜力


芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线的交汇,意味着端侧设备将能够运行更高性能的大模型,边缘计算和终端智能将迎来爆发式增长,算力普惠将从云端走向终端。



基于密度法则的理论指导,清华大学、面壁智能团队持续推进高密度模型研发,发布了面壁小钢炮 MiniCPM、MiniCPM-V/o、VoxCPM 等一系列端侧高密度模型,凭借高效低成本的特性享誉全球,被评为 2024 年 Hugging Face 最多下载、最受欢迎的中国大模型。截至 2025 年 10 月,模型下载量接近 1500 万次,GitHub 星标接近 3 万次。


2025-12-03 16:331

评论

发布
暂无评论

Vue3的8种组件通信方式

编程江湖

Vue 3

物联网平台分为几层,你了解吗

华为云开发者联盟

物联网平台 终端 物联网 IoTAgent 智慧家庭

Spring中用了哪些设计模式

编程江湖

spring

java开发之SpringBoot 定时任务动态管理

@零度

JAVA开发 springboot

带你认识FusionInsight Flink:既能批处理,又能流处理

华为云开发者联盟

flink 批处理 流处理 FusionInsight Flink 计算框架

中文分词的原理与方法及其在运维领域中的实践

云智慧AIOps社区

算法 分词 智能运维 日志解析 技术黑板报

ReactNative进阶(七):导航组件 react-navigation

No Silver Bullet

React Native 导航 1月月更

深度剖析:Kafka 请求是如何处理的? 看完这篇文章彻底懂了

Kafka中文社区

2022 年 Python 项目管理最佳实践(qbit)

qbit

设计模式【9】-- 外观模式?没那么高大上

秦怀杂货店

Java 设计模式 外观模式

KubeMeet 新年首站成都开放报名!5 场云原生应用交付开源实践

阿里巴巴云原生

阿里云 开源 云原生 KubeMeet 线下活动

Linux之chmod命令

入门小站

Linux

全新UI西游H5决战天宫游戏详细图文架设教程

echeverra

熬夜整理56个JavaScript高级的手写知识点!!专业扫盲!

Sunshine_Lin

JavaScript 面试 进阶 ES6 手写

Kafka架构及基本原理简析

编程江湖

kafka

2021 年 25 大 DevOps 工具(下)

禅道项目管理

DevOps

5步带你掌握工作流Activiti框架的使用

华为云开发者联盟

工作流 流程 任务 Activiti 静态数据

前端开发之JS中localStorage的使用

@零度

JavaScript 前端开发

在线JSON转YAML工具

入门小站

json

Tableau Day3:智能分析

贾献华

Tableau 1月月更

企业办公IM风云再起,未来将朝三大方向发展

BeeWorks

技术干货 | 基于标准 WebRTC 低延迟直播的开源实践

网易云信

WebRTC 网络协议 直播技术 低延迟

企业级开发平台的业务场景/运行机制/功能

BeeWorks

云计算厂商们,你们辜负了中国的用户

Geek_2749b8

云计算 云服务

架构训练营 week4 课程总结

红莲疾风

「架构实战营」

没想到,学棋五年的我竟然输给了昇腾CANN!

华为云开发者联盟

机器人 强化学习 CANN 昇腾 机械臂

ubuntu隐藏终端路径

Ayosh

ubuntu #Ubuntu

【LeetCode】括号的最大嵌套深度Java题解

Albert

算法 LeetCode 1月月更

做数据分析已经会Excel了,还要学Python吗?

博文视点Broadview

大数据开发之Hive调优技巧

@零度

大数据 hive调优

青藤:东西向流量占比80%,安全如何有效搞定?

青藤云安全

大模型每百天性能翻倍!清华团队“密度法则”登上 Nature 子刊_AI&大模型_InfoQ精选文章