NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

挑战 Transformer 霸权? Yan 架构竟以半价成本实现百万级参数大模型

Yan 模型为国内首个非 Attention 机制的通用自然语言大模型。

  • 2024-01-25
    北京
  • 本文字数:3219 字

    阅读完需:约 11 分钟

大小:1.58M时长:09:12
挑战Transformer霸权? Yan 架构竟以半价成本实现百万级参数大模型

1 月 24 日,岩芯数智正式发布自研大模型“Yan 模型”。Yan 模型采用非 Transformer 架构,为非 Attention 机制的通用自然语言大模型。据了解,该大模型有相较于同等参数 Transformer 的 7 倍训练效率、5 倍推理吞吐和 3 倍记忆能力。


昨日,在 ROCK AI 大模型发布会上,Yan 大模型展示了其在人工智能领域的一系列创新和优势。该模型在多个方面表现出超越当前 Transformer 技术的潜力。


首先,Yan 大模型在训练效率方面显示出惊人的成绩,据称比同等参数的 Transformer 提高了 7 倍。这意味着在更短的时间内,Yan 可以处理和学习更多的数据,这对于加快 AI 模型的发展至关重要。其次,它的推理吞吐量是 Transformer 的 5 倍,这使得处理实时数据和复杂任务变得更加高效。最引人注目的是,它拥有 3 倍于 Transformer 的记忆能力,这可能为处理大规模数据集和复杂的 AI 任务提供了全新的途径。


尽管 Yan 大模型是否会开源还有待确定,但其合作者已经可以免费使用这一架构,这无疑将促进技术的快速应用和发展。值得一提的是,基于 Yan 架构,仅需投入同等规模 Transformer 架构成本的 50% 甚至更低,就可以拥有百万参数级的大模型。

Transformer 架构的局限性


作为当前 AI 领域的一个基石,Transformer 的设计和性能已经在各种任务中被广泛验证。Transformer 是基于注意力机制的神经网络架构,现今在人工智能领域占据主导地位。它能够有效处理序列数据,极大提高翻译、识别等任务的效果。


全球人工智能热潮的许多主要模型和产品,如 GPT、LLAMA、PaLM 等,都是基于 Transformer 构建的。其通用性显著,虽最初设计用于语言翻译,但现也推动计算机视觉、机器人学、计算生物学等领域的发展。Transformer 的核心在于快速捕捉输入内容各部分间的相互作用,适用于处理句子中的片段、音乐中的音符、图像中的像素、蛋白质的部分等各种任务。


Transformer 的概念最早出现在谷歌研究人员 2017 年的论文《Attention is All You Need》中,这篇论文在短短 5 年内被引用了 3.8 万余次。它是编码器 - 解码器模型的一个特例,2-3 年前开始流行。在此之前,注意力机制只是模型的一部分,基于 LSTM(长短期记忆)和其他 RNN(循环神经网络)变体。


Transformers 的关键见解在于,注意力可以作为推导输入和输出之间依赖关系的唯一机制。


Transformer 的突破在于其对注意力的独特运用。它使模型在处理单词时能够关注与该单词密切相关的其他单词。在《Attention is All You Need》发表前,语言 AI 领域先进技术是 RNN,它按顺序处理数据,但在表达单词间远距离依赖关系时存在局限。注意力机制使模型无视距离,考虑单词间的关系,确定哪些单词和短语更值得关注。谷歌团队的突破在于完全舍弃 RNN,仅用 Attention 进行语言建模。


注意力机制最初在计算机视觉中提出,重点关注特定区域,忽略无关图像区域。它实现了语言处理的并行化,同时分析文本中的所有单词,而非顺序分析。Transformer 的并行化带来了更全面、准确的文本理解,以及高于 RNN 的计算效率和可扩展性。现代基于 Transformer 的模型以其规模为特点,能在更大的数据集上训练,使用更多参数。


尽管 Transformer 非常强大和通用,技术领域仍在寻求更高效、先进的解决方案来应对新挑战和需求。

尽管 Transformer 模型在人工智能领域取得了显著成就,但它们存在一些局限性,这促使研究者寻找更优的模型架构。Transformer 的主要局限性包括:


  • 参数数量庞大:Transformer 模型通常含有数百万到数十亿个参数,需要大量数据进行训练,以及昂贵的计算资源,包括高性能的 GPU 或 TPU。

  • 高昂的计算成本:标准 Transformer 模型在处理长序列时,其自注意力机制的时间和空间复杂度呈二次方增长。随着输入序列长度的增加,计算资源和时间需求成指数级增长。同时,由于参数众多和复杂的层间交互,模型在训练和推理时还需要大量内存。

  • 长序列处理困难:Transformer 架构与序列长度呈二次方关系,处理更长的序列时,内存和计算需求急剧增加,使得处理长序列变得困难。


国内首个非 Attention 机制大模型——Yan 模型


面对 Transformer 模型在处理大参数量、高计算成本和长序列困难方面的局限性,科技界迫切寻求更高效的解决方案。这些挑战促使岩芯数智研发团队开创性地开发了 Yan 模型,一个基于非 Attention 机制的创新架构。在 ROCK AI 大模型发布会上,刘凡平详细介绍了 Yan 模型的独特优势和技术进步。



他指出,Yan 架构与 OpenAI 的 GPT 系列、Meta 的 LLaMa 系列和 Google 的 PaLM 系列等基于 Transformer 架构的模型截然不同,是一种完全独立研发的新一代技术,拥有自主知识产权。


Yan 架构的主要优势在于其训练效率和资源消耗方面的显著改进。刘凡平提到,Yan 架构的训练效率是传统 Transformer 架构的 7 倍,这大大缩短了开发周期,并显著降低了成本。这对资源有限的创业公司和中小企业尤其有利。


此外,Yan 架构在保持高效能的同时,具有高推理吞吐量的特点,能够支持更多用户的同时使用。刘凡平还强调了 Yan 架构对数据隐私的重视,支持 100% 私有化部署,这对注重数据安全的企业至关重要。


他提到,Yan 架构能够在不同平台上运行,包括大型服务器和普通消费级 CPU,这增加了其在不同规模和类型企业中的应用范围。同时,Yan 在减少大模型幻觉问题方面也取得了进展,通过增强记忆能力,提高了问题回答的准确性。


在刘凡平的介绍之后,岩芯数智 CTO 杨华对 Yan 架构进行了进一步的阐释。



杨华表示,Yan 架构不依赖于传统的注意力机制或 RNN 等序列模型。通过采用线性自然语言关联特征表示、特征关联函数和记忆算子,Yan 实现了计算复杂度的显著降低和特征表达能力的增强。Yan 通过多层叠加提高网络深度,优化了模型的学习和生成复杂信息特征的能力,从而在推理效率上取得显著提升,同时大幅降低了推理成本。


杨华还介绍了基于 Yan 架构的不同参数规模的语言模型,包括 13 亿、70 亿、480 亿参数量的模型,并强调了在大规模语料上的训练过程和方法。在性能对比中,Yan 在训练效率、推理吞吐量、资源消耗和记忆能力等多个维度上均优于传统 Transformer 模型。通过应用示例,如机器翻译、古诗续写和问答系统,Yan 展示了其实际运行能力,特别是在常规消费级 CPU 设备上的流畅运行能力。


随着发布会的结束,这些技术介绍和展示吸引了与会者的极大关注,引发了大家的广泛讨论。在随后的深入采访中,刘凡平表示,Yan 模型的设计旨在满足中小企业和大型企业合作伙伴的多样化需求。这一模型以其高效、灵活且成本效益高的特点,已经在多个行业中获得了广泛的关注和应用。


刘凡平强调,Yan 模型深受多个合作伙伴的青睐,这些合作伙伴参与了与模型相关的会议,并对其表现出浓厚的兴趣;对于中小型企业而言,Yan 模型提供了一种相对低成本的技术解决方案。它通过优化模型架构,不仅提高了训练和推理的效率,还降低了客户的总体项目成本。


此外,刘凡平也谈到,Yan 模型对于离线应用场景也具有重要意义。它能够在端侧运行,支持断网情况下的应用,这对于教育等领域尤为关键。在这些领域中,Yan 模型能够为用户提供不依赖于网络环境的稳定和高效服务。在金融和制造业领域,Yan 模型可以以低成本的方式提供智能客服解决方案,优化供应商管理和高效处理内部数据等,从而提升用户体验和运营效率。

Yan 架构的潜力与挑战


从技术介绍来看,Yan 架构无疑展示了许多潜在优势,例如其在训练效率、资源消耗、推理吞吐量以及对数据隐私的重视上的显著进步。


然而,正如历史上许多技术革新所展示的,一定程度的技术优势并不总是能够直接转化为实际应用中的成功。因此,对于 Yan 架构来说,下一步至关重要的是经受市场和行业专家的实际测试和验证。这不仅是对其技术创新的检验,也是对其在实际应用环境中可行性的考量。


我们期待看到更多来自不同背景和专业领域的专家对 Yan 架构进行深入分析和实际应用测试。进一步的,对于 Yan 架构来说,吸引和鼓励更广泛的行业参与至关重要。是否能够激发开发者、创业公司和大型企业的兴趣,将是衡量其市场潜力的关键。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-01-25 16:076598

评论

发布
暂无评论

微服务架构中,二次浅封装实践

架构 分布式 微服务 技术栈 二次封装

第四模块总结

张靖

架构训练营

Elasticsearch写入数据的过程是什么?以及是如何更新索引数据的

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

调优达到上限?这份尊享版性能实战套餐,让你领先别人好几个级别

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

终于有人将Github星标百万的Spring技术精髓收录成册

热爱java的分享家

Java 面试 程序人生 springboot 经验分享

考试试卷存储方案

天天向上

架构实战营

你敢相信?我用了3个月成功破茧成蝶,从简历被拒到收割8个大厂offer

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

明道云对接企查查,一键矫正客户信息

明道云

【高并发】深度解析ScheduledThreadPoolExecutor类的源代码

冰河

Java 并发编程 多线程 高并发 异步编程

架构实战营 - 模块四作业

危险游戏

架构实战营

【LeetCode】N 叉树的最大深度Java题解

Albert

算法 LeetCode 11月日更

字节跳动面试官:SpringBoot统一接口返回和全局异常处理怎么玩?

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

堪称数据库的天花板,极致经典的字节内部MySQL宝典意外流出!

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

区块链技术革命才刚刚开始

CECBC

Apache Pulsar 与 Apache Kafka 在金融场景下的性能对比分析

Apache Pulsar

大数据 kafka 架构 云原生 Apache Pulsar

记一次提升18倍的性能优化

捉虫大师

性能优化 Go 语言

模块四作业

Asha

「架构实战营」

🏆【Alibaba中间件技术系列】「RocketMQ技术专题」让我们一起实践RocketMQ的服务搭建及配置操作

洛神灬殇

RocketMQ 11月日更 Apache RocketMQ 集群搭建

Pulsar VS. Kafka(2): 以Segment为中心的架构

Apache Pulsar

kafka 架构 分布式 Apache Pulsar 消息中间件

模块四作业-redis 存储方案设计 - 学生考试试卷

Geek_cb2b43

Pulsar VS. Kafka(1): 统一的消息消费模型(Queue + Stream)

Apache Pulsar

kafka 架构 云原生 Apache Pulsar 消息中间件

极客时间算法训练营Week01

jjn0703

算法训练营

不可思议,阿里巴巴首发:Java核心框架指导手册,竟1小时点击量破千万

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

架构实战营模块四作业

孙志强

架构实战营

System.Text.Json自定义Conveter

喵叔

11月日更

遇到了几道关于作用域的前端小题

空城机

JavaScript 大前端 11月日更

真香!Github一夜爆火,阿里性能优化不传之秘终于开源

热爱java的分享家

Java 程序人生 性能优化 编程语言 经验分享

nginx配置详解

小鲍侃java

11月日更

Hive基本理论和常用函数

犟马骝

css布局之全屏布局

Augus

CSS 11月日更

元宇宙:区块链时代的新名字

CECBC

挑战Transformer霸权? Yan 架构竟以半价成本实现百万级参数大模型_生成式 AI_李忠良_InfoQ精选文章