2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:189219

评论

发布
暂无评论
发现更多内容

聊聊 Kafka:Kafka 如何保证可靠性

老周聊架构

kafka 5月月更

Kafka到底有多高可靠?(RNG NB)

敖丙

kafka Java EE 程序员‘

java培训动态上传jar包热部署实战分享

@零度

JAVA开发

用户体验至上时代,银行的“主动出击”

博睿数据

金融 博睿数据 数据链DNA IT运维

国密在车联网安全认证场景中的应用|车联网系列专题07

EMQ映云科技

车联网 物联网 国密 emqx 5月月更

SAP UI5 自动化测试工具的 qunit-redirect.js

汪子熙

JavaScript 前端开发 SAP Fiori 5月月更

模块二 微信朋友圈高性能架构分析

挖了蘑菇哩斯

作业 架构实战营

基于阿里云 ASK 的 Istio 微服务应用部署初探

阿里巴巴云原生

阿里云 容器 微服务 云原生 服务网格

畅聊安全生产,对话B站、唯品会一线专家!|TakinTalks大咖对谈

TakinTalks稳定性社区

2.5TinkerPop3 升级指南

Geek_古藤模根

图数据库实战

架构实战营-模块二作业

Roy

架构实战营

分析一下微信朋友圈的高性能复杂度

Geek_7a789a

Docker镜像制作实战:设置时区和系统编码

程序员欣宸

Docker 5月月更

通过集成腾讯IM来浅尝一下.net 6的MINI API

为自己带盐

.net core 5月月更 mini api

web前端培训如何解决模块依赖复杂度太高的问题

@零度

前端开发

什么是哈希?趣投哈希幸运哈希竞猜游戏开发方案策划

开发微hkkf5566

如何快速解决集群异常和机器性能波动

NebulaGraph

可视化 图数据库 知识图谱

高危!Fastjson反序列化漏洞风险

源字节1号

软件开发

前端食堂技术周刊第 39 期:TypeScript 4.7、Layouts RFC、Lerna 复活后的大版本 v5.0.0 、TypeScript 错误翻译器

童欧巴

JavaScript typescript 前端

企业知识管理难题,现在有了一个好的解决方案

小炮

网站建设导致网站失败的十个原因

源字节1号

微信小程序 前端开发 后端开发 网站开发

要自信的对客户说 “NO”

源字节1号

英特尔加速创新,唤醒网络及边缘原力

科技之家

直播预告丨 Hello HarmonyOS 进阶课程第五课——原子化服务

HarmonyOS开发者

HarmonyOS

善事利器 - 我是如何在药师帮掌店易项目落地 Zadig 的

Zadig

DevOps 云原生 CI/CD

【架构训练营】模块二作业

知北游

作业

架构实战营 7 期「模块二」如何抓住架构设计关键点

Steve_bot

理“ Druid 元数据”之乱

vivo互联网技术

大数据 存储 Druid Apache Druid

面试突击52:什么是三范式?它有什么用?

王磊

Java 面试

【LeetCode】最多单词数的发件人Java题解

Albert

LeetCode 5月月更

大数据培训数仓实践 Kimball 维度建模

@零度

数仓 大数据开发

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章