写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:189262

评论

发布
暂无评论
发现更多内容

如何解决软件开发中用户参与度低,反馈滞后的问题

易成研发中心

伊利奶粉持续推进智慧产业建设 为行业新质生产力发展树立标杆

极客天地

Navicat Premium 15 for Mac:全能数据库管理工具

小玖_苹果Mac软件

2025 国内知名 RPA 厂商大剖析,企业该如何抉择?

Techinsight

RPA 金智维 AI Agent

DApp开发从入门到精通:以太坊/Solana公链生态实战解析

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

墨迹天气携手天润融通,用AI提升气象服务效率

天润融通

IK Multimedia T-RackS 6 MAX for Mac:打造专业级音乐母带

小玖_苹果Mac软件

Syncovery for Mac:高效文件同步与备份解决方案

小玖_苹果Mac软件

Modern CSV for Mac:高效 CSV 文件编辑与管理

小玖_苹果Mac软件

跨部门沟通效率低怎么办

易成研发中心

CoreDNS 可观测最佳实践

观测云

CoreDNS

LazyLLM×RAG× 满血 DeepSeek - R1×Agent:商用知识库赋能本地部署,开启 “文理双全” 新引擎

商汤万象开发者

美国加密战略储备:重塑全球金融格局的“数字黄金”革命

TechubNews

TRUMP 美元

TencentOS Server AI 全栈DeepSeek工具箱

TencentOS

Capture One 23 Pro for Mac:重新定义图像编辑

小玖_苹果Mac软件

Sublime Text for Mac:重新定义代码编辑体验

小玖_苹果Mac软件

YashanDB单机(主备)可视化部署

YashanDB

数据库 yashandb

Koupleless 2024 年度报告 & 2025 规划展望

SOFAStack

YashanDB单机(主备)部署

YashanDB

数据库 yashandb

YashanDB分布式部署

YashanDB

数据库 yashandb

软件系统架构评估方法

陈一之

系统架构 架构分析

YashanDB下载软件包方法

YashanDB

数据库 yashandb

YashanDB服务端安装(命令行)

YashanDB

数据库 yashandb

如何解决项目中利益相关者对需求理解不一致问题

易成研发中心

项目管理

YashanDB共享集群部署

YashanDB

数据库 yashandb

ChemDraw Professional 16 for Mac:化学绘图的终极工具

小玖_苹果Mac软件

Audio Editor for Mac:轻松打造专业级音频

小玖_苹果Mac软件

Dubformer 获 360 万美元融资,情感迁移技术革新 AI 配音;全球首款宠物智能手机亮相:可定位、AI 实时通话丨日报

声网

官宣,天润云旗下又一核心品牌接入 DeepSeek

天润融通

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章