写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:1810022

评论

发布
暂无评论
发现更多内容

基于边缘计算 Client-Edge-Server 业务模型实践

火山引擎边缘云

边缘计算 实时音视频 端边云协同架构

OpenHarmony硬件资源池化架构介绍

科技汇

从艺赛旗iS-RPM,看国产流程挖掘产品的发展与特性

王吉伟频道

RPA 超自动化 业务流程优化 流程挖掘 任务挖掘

OpenMLDB Meetup No.2 会议纪要

第四范式开发者社区

人工智能 机器学习 数据库 特征 特征平台

Flink快速入门

星期35

智汇华云 | flashcache原理及实践

华云数据

多分支集成发布各种坑怎么填?

阿里云云效

云计算 阿里云 分支 多分支集成 分支策略

企评家|为什么说我们需要企业成长性评价

企评家

零基础学Java第二节(运算符、输入、选择流程控制)

五分钟学大数据

Java 4月月更

MapStruct使用指南

星期35

国内做得好的进销存软件有哪些啊?

优秀

进销存管理系统

企评家|上海海欣集团股份有限公司成长性报告简述

企评家

“刘畊宏女孩”背后的居家健身,市场潜力有多大?

易观分析

刘畊宏健身 健身市场

集齐多种功能的团队协作软件!

Liam

前端 后端 Jmeter Postman swagger

电脑盘符的正确用法

源字节1号

软件开发

java岗面试阿里后整理的面试资料包含(Jvm+微服务+Spring等)

Java架构追梦

程序员 java面试 后端开发

PerfDog赋能手机芯片行业,提升游戏性能用户体验

WeTest

千万级学生系统考试试卷存储架构设计

Trent

架构训练营 存储架构

5 张弹珠图彻底弄清 RxJS 的拉平策略:mergeMap、switchMap、concatMap、exhaustMap

前端 RXJS 函数式编程

企事业单位如何有效开展知识管理建设

小炮

知识管理

前端入门第一弹 | 开发工具与配置

🇫 🇮 🇸 🇭

一文带你看懂ATM的应用权限访问控制能力

科技汇

[版本更新] PolarDB-X on OSS 提供冷热数据分离存储

阿里云数据库开源

数据库 阿里云 开源 PolarDB-X

#FlyFish现金激励计划# 参与开源项目,赢万元现金!

云智慧AIOps社区

JavaScript 大前端 活动 开源项目 可视化编排

设计千万级学生管理系统的考试试卷存储方案

流火

5G+实时云渲染,让元宇宙应用触手可及

3DCAT实时渲染

5G 虚拟仿真 元宇宙 实时渲染 实时云渲染

凭借这份Spring Cloud教程,成功拿下阿里,头条面试

Java架构追梦

程序员 java面试 后端开发 Spring 框架漏洞

对话九阳股份信息总监刘大勇:企业数智化转型关键要素

大咖说

阿里云 智篆商业 九阳 数智化转型

企评家|宁波富达股份有限公司成长性报告简述

企评家

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章