写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:189491

评论

发布
暂无评论
发现更多内容

自主可控,体验跃升丨恒拓高科亮相“HDD·广东鸿蒙生态伙伴论坛”

BeeWorks

2000道面试必问的Java面试八股文及答案整理(2025版)

Summer

Java 程序员 面试 大厂 八股文

小小的我,大大的AI

脑极体

AI

AI+Data:AI时代的企业数据治理

合合技术团队

数据治理 数字化 #人工智能 #大数据

集成服务

flfljh

2024年加密市场的突破与展望:以太坊与Solana的崛起

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

用友BIP联合华为完成鲲鹏原生开发技术认证,加速信创发展!

用友BIP

华为 用友 华为鲲鹏 企业数智化 用友BIP

直播预告丨社区年度交流会& 《RTE 和 AI 融合生态洞察报告 2024》发布

声网

大佬带你一周刷完Java面试八股文,比刷视频效果好多了

Summer

Java 程序员 面试 架构师 大厂

一颗光谱芯片的AI辉光

脑极体

AI

亚马逊运营广告秘籍:探究高效营销之道

科普小能手

数据挖掘 数据分析 跨境电商 API 接口 亚马逊运营

说出与 IoTDB 的故事:温暖有你,祝福有礼!

Apache IoTDB

揭秘如何用Monaco Editor打造功能强大的日志查看器

袋鼠云数栈

奋进2025 | 用友BIP乘风破浪,大有可为!

用友BIP

用友 企业数字化 用友YonBIP 企业数智化 用友BIP

OpenNJet v3.2.0正式发布

通明湖

做TikTok直播可以选择哪些网络方案?

Ogcloud

海外直播专线 tiktok直播专线 tiktok直播网络 tiktok直播加速 tiktok直播网络方案

周亚辉投资笔记:机器人时代的社会结构模型与十年后中国首富预测

脑极体

AI

a16z:小模型 + 边缘 AI 将定义 2025;音效模型 TangoFlux:3 秒钟生成 30 秒音频丨RTE 开发者日报

声网

【连载 09】atomic包原子类

FunTester

数字货币支付系统开发搭建:构建未来的区块链支付生态

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

JVM实战—如何分析jstat统计来定位GC

不在线第一只蜗牛

JVM

非凸科技再次斩获多项行业殊荣,感谢认可

非凸科技

日志聚类算法 Drain 的实践与改良

观测云

日志 聚类算法

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章