大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:189907

评论

发布
暂无评论
发现更多内容

2023年,你需要了解Zebec生态的几个开年利好

BlockChain先知

FL水果Studio21免费版有哪些功能?

茶色酒

水果FL Studio FL水果

js事件循环与macro&micro任务队列-前端面试进阶

loveX001

JavaScript

如何整理自己的前端面试题库

loveX001

JavaScript

前端vue面试题

bb_xiaxia1998

Vue

2 理解商业模式和业务模式

涛哥 数字产品和业务架构

商业模式 业务模型

js异步编程面试题你能答上来几道

loveX001

JavaScript

Java高手速成 | 使用TCP进行手机文件传输

TiAmo

Java TCP

手写一个Redux,深入理解其原理-面试进阶

beifeng1996

React

滴滴前端一面必会vue面试题(附答案)

bb_xiaxia1998

Vue

Casper Labs 举办的 Blockchain Hub Davos 2023落幕,企业级应用在加速

股市老人

基于SLO告警(Part 3):开源项目 sloth 使用

Grafana 爱好者

云原生 可观测性 Prometheus SRE SLO

你是如何使用React高阶组件的?

beifeng1996

React

阿里前端一面必会react面试题总结

beifeng1996

React

高级前端常考手写面试题(必备)

helloworld1024fd

JavaScript

2023年,你需要了解Zebec生态的几个开年利好

股市老人

理解「业务」与「技术」概念

架构 技术 业务

几个常见的js手写题,你能写出来几道

helloworld1024fd

JavaScript

Studio One6.0最新中文版下载

茶色酒

Studio One

EasyRecovery14最新个人版本有哪些功能?

茶色酒

Okhttp 如何构建一个 Get 的 URL

HoneyMoose

2023最新前端面试总结

loveX001

JavaScript

用户行为分析模型实践(三)——H5通用分析模型

vivo互联网技术

大数据 数据分析 数仓建模

校招前端二面常考react面试题总结

beifeng1996

React

说说你对Vue的keep-alive的理解

bb_xiaxia1998

Vue

实现Promise的原型方法--前端面试能力提升

helloworld1024fd

JavaScript

社招前端一面经典手写面试题

helloworld1024fd

JavaScript

如何在 C# 项目中链接一个文件夹下的所有文件

newbe36524

面试官:vue2和vue3的区别有哪些?

bb_xiaxia1998

Vue

Backbone前端框架解读

京东科技开发者

Vue 前端 前端架构 企业号 2 月 PK 榜 backbone

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章