写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:189932

评论

发布
暂无评论
发现更多内容

如何评估YashanDB的企业适用性?实用指南

数据库砖家

如何确保YashanDB数据库的性能稳定?

数据库砖家

如何设计基于YashanDB数据库的高效查询

数据库砖家

如何实现YashanDB数据库的负载均衡

数据库砖家

如何提升YashanDB数据库的安全性?

数据库砖家

MyEMS优势详解

开源能源管理系统

开源 能源管理 开源能源管理系统 MyEMS

如何监控YashanDB数据库性能并实现自动预警?

数据库砖家

如何快速搭建基于YashanDB数据库的应用?

数据库砖家

如何管理YashanDB中的数据模型?

数据库砖家

如何评估YashanDB的查询性能

数据库砖家

Prompt-Driven编码与领域驱动建模的融合研究

申公豹

AI

热烈祝贺 Flink 2.0 存算分离入选 VLDB 2025

Apache Flink

大数据 flink 流计算 VLDB

Web前端入门:JavaScript 鼠标事件(mouse) enter/leave 和 over/out 区别

电子尖叫食人鱼

JavaScript Web

评估YashanDB数据库的性能监测工具

数据库砖家

如何评估YashanDB的性能与稳定性?

数据库砖家

如何实现YashanDB数据库中的数据加密

数据库砖家

如何实现YashanDB中的数据冗余处理

数据库砖家

这几个 Vibe Coding 经验,真的建议学!

Immerse

如何结合YashanDB实现智能化数据管理与应用

数据库砖家

如何快速掌握YashanDB数据库高级查询技巧?

数据库砖家

​​智能体开发革命:用LangChain打造下一代AI应用工作流

聚客AI学院

人工智能 向量数据库 langchain AI 智能体 rag实战

如何策划YashanDB的培训与学习项目

数据库砖家

如何结合YashanDB数据库实现企业级智能分析平台

数据库砖家

如何快速入门YashanDB数据库开发

数据库砖家

如何编写YashanDB的自定义函数以扩展功能

数据库砖家

如何评估YashanDB在企业数字化转型中的价值

数据库砖家

如何实现YashanDB数据库的容器化部署与管理

数据库砖家

大模型时代,数据标注产业面临的挑战

数据堂

人工智能 AI 数据标注 大模型 标注员

The History of Big Data

数新网络官方账号

数据库 大数据

开源之夏2025 | Karmada 社区中选学生名单公布!

华为云原生团队

云计算 容器 云原生

提升YashanDB数据库的数据处理效率

数据库砖家

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章