50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:189888

评论

发布
暂无评论
发现更多内容

大数据中流量分析常见分类

大数据技术指南

大数据 28天写作 3月日更

Java8中的 Stream 那么彪悍,你知道它的原理是什么吗?

Java小咖秀

Java 面试 stream java8 开发

Vue3源码 | createApp都干了什么?

梁龙先森

源码分析 大前端 Vue3

从Nacos客户端视角来分析配置中心原理

麦洛

nacos SpringCloud Alibaba 动态配置

IO 模型

无心

Netty

Spark详细剖析

五分钟学大数据

大数据 spark 28天写作 3月日更

控制台的安装与使用 | 联盟链开发(二)

李大狗

联盟链 FISCO BCOS 狗哥

银行业只是开始,60个可以被区块链改变的行业

CECBC

数字技术

《青春有你3》的子弹时间舞台,凝筑了自由视角技术进化史

脑极体

为何数字人民币要采用“小额匿名、大额可溯”的设计?

CECBC

数字货币

央行数字人民币“可控匿名”会侵犯隐私吗?最新解读来了

CECBC

数字货币

谈兼职创业

Ryan Zheng

产品0期-第九周

Jxin

探索 Snabbdom 模块系统原理

Geek_z9ygea

JavaScript Vue Web Vue 3 Snabbdom

架构师训练营 4 期 第12周

引花眠

架构师训练营 4 期

Docker 教程(三):Docker 命令

看山

Docker

一文搞定Diff算法

执鸢者

Vue 大前端 Diff

OpenCV 写图像也有讲究,取经之路第 5 天

梦想橡皮擦

28天写作 3月日更

Go Channel源码分析

非晓为骁

源码分析 channel Go 语言

产品训练营第八章作业

Arnold

传统IT部门为什么越来越不受欢迎?

boshi

数字化转型 IT职场 七日更

科技强国的使命召唤中,百度AI埋下三根未来“引线”

脑极体

2021十大区块链领域即将起飞

CECBC

区块链 投资

hive数据倾斜解决办法

五分钟学大数据

大数据 hive 28天写作 3月日更

用户故事拆分速查手册(译)

Bruce Talk

敏捷 译文 Agile User Story

找到适合自己的睡眠方案

石云升

生活方式 28天写作 睡眠 3月日更

工作多年后我更明白了UT的重要性

好好学习,天天向上

2.3 Go语言从入门到精通:数据类型

xcbeyond

3月日更 Go 语言

数据仓库设计

大数据技术指南

大数据 28天写作 3月日更

产品训练营第八周作业——用户路径地图

innovator琳

用户研究 用户地图 用户数据 用户模型

线上问题的一点反思

风翱

复盘 3月日更 线上问题

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章