写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:189603

评论

发布
暂无评论
发现更多内容

Valentina Studio Pro for Mac:Mac 平台数据库管理的全能助手

晨光熹微

专业的音乐创作编辑软件PreSonus Studio One 6 Pro for mac

Geek贝

《启信宝2025奶茶趣味报告》:奶茶企业5年激增140%,增至近40万家

合合技术团队

人工智能 报告 #大数据

淘宝商品详情 API 与物联网技术融合的创新应用探索

Noah

量子级安全架构:抗攻击包的冷热隔离与生物验证技术

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

未来钱包:AI资产管理+跨原子交换的智能终端

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

VNC Server for Mac(VNC远程控制软件)

Geek贝

堡垒机在数据安全中的作用你知道吗?

行云管家

网络安全 数据安全 堡垒机

F5 BIG-IQ 5.4.0 - 集中管理 BIG-IP

sysin

F5

Spring用到的10种设计模式,真巧妙!

电子尖叫食人鱼

spring

KCNScrew Pack for Mac:Mac 软件序列号查询神器

晨光熹微

F5 BIG-IQ 7.1.0 - 集中管理 BIG-IP

sysin

F5

苹果造车失败?这些百亿级项目立项都应该做的正确决策!

IPD产品研发管理

产品 互联网 产品经理 产品设计

场上显眼包!海信100吋电视世界第一霸屏世俱杯

Alter

Carbon Copy Cloner for Mac(磁盘克隆/同步/备份软件)

Geek贝

vscode [ctrl+click]‘vue 单文件组件’,‘转到定义’不起作用

柠檬与橘子

鸿蒙便捷生活类应用上架流程二

小赵学鸿蒙

运动健康 HarmonyOS应用上架

F5 BIG-IQ 4.6.0 - 集中管理 BIG-IP

sysin

F5

AudFree Audio Capture for Mac:Mac 上的音频捕获专家

晨光熹微

社交金融钱包:融合聊天包与DAO治理的Web3入口

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

MySQL事务:工作原理与实用指南

不在线第一只蜗牛

MySQL 数据库

F5 BIG-IQ 8.4.0 - 集中管理 BIG-IP

sysin

F5

区块链 Web3 项目的外包开发流程

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发公司

多链资产管理中心:支持1000+币种的一站式钱包开发方案

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 公链开发代币开发

Proxyman Premium for Mac(网络调试和分析工具)

Geek贝

F5 BIG-IQ Centralized Management 下载汇总 - 集中管理 BIG-IP 设备和服务

sysin

F5

WonderPen 妙笔:Mac 上的写作利器

晨光熹微

如何使用第三方库中的@pura/harmony-utils(V1.3.3)申请授权工具类一

小赵学鸿蒙

三方SDK 数码相机

F5 BIG-IQ 6.1.0 - 集中管理 BIG-IP

sysin

F5

VS Code:轻量级高扩展编辑器,M1芯片性能全开

柠檬与橘子

如何使用第三方库中的@pura/harmony-utils(V1.3.3)申请授权工具类二

小赵学鸿蒙

三方SDK 数码相机

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章