50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:189857

评论

发布
暂无评论
发现更多内容

直播预告 | 博睿学院:揭开docker的神秘面纱

博睿数据

Docker 可观测性 智能运维 博睿数据 博睿学院

AI新场景 安全新边界技术高峰会定档8月9日

权说安全

2023 年 10 大前端发展趋势

互联网工科生

前端 发展趋势

网络安全(黑客)自学

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

从零开始搭建医药领域知识图谱实现智能问答与分析服务(含码源):含Neo4j基于垂直网站数据的医药知识图谱构建、医药知识图谱的自动问答等

汀丶人工智能

人工智能 知识图谱 智能问答

Flink 最佳实践:TDSQL Connector 的使用(上)

腾讯云大数据

flink 流计算 Oceanus

点云标注在自动驾驶中的精度提升

数据堂

软件测试/测试开发丨Python 封装 学习笔记

测试人

Python 软件测试 自动化测试 封装

【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南(备份+恢复篇)

码界西柚

MySQL 数据恢复 数据备份 技术分析

在Java中的空指针异常怎么避免?

java易二三

指针 java‘ #编程

Hybrid App 技术解析:热更新的原理

Onegun

混合应用开发 native 热更新 Hybrid

AIIA杭州大会|李京梅:基于孟子GPT生成式大模型的技术与行业应用实践

澜舟孟子开源社区

低代码是开发者的未来吗?浅谈低代码平台

互联网工科生

云原生 低代码 数字化 系统开发

基于 Databend 实现的海量日志实时查询服务 | 多点DMALL

Databend

「大模型之家」对话澜舟科技创始人兼CEO周明:马上采取行动,拥抱大模型

澜舟孟子开源社区

改变人力资源业务战略,释放变革性技术力量

智达方通

全面预算管理 企业人力资源 智达方通EPM系统

图技术在 LLM 下的应用:知识图谱驱动的大语言模型 Llama Index

NebulaGraph

图数据库 知识图谱 LLM

货拉拉基于 Flink 计算引擎的应用与优化实践

Apache Flink

大数据 flink 实时计算

FTP文件传输工具:简单、高效、实用的数据传输方式

镭速

快速文件传输 FTP文件传输工具

uni-app开发小程序:项目架构以及经验分享

陇锦

小程序 uni-app 前端

2023深圳高交会|第二十五届中国国际高新技术展览会

AIOTE智博会

高交会

一文带你全面了解openGemini

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

iOS MachineLearning 系列(21)——CoreML模型的更多训练模板

珲少

金融领域:产业链知识图谱包括上市公司、行业和产品共3类实体,构建并形成了一个节点10w+,关系边16w的十万级别产业链图谱

汀丶人工智能

自然语言处理 知识图谱

澜舟科技成立两周年|“孟子GPT”大模型开启邀测

澜舟孟子开源社区

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章