写点什么

挑战 Transformer 霸权? Yan 架构竟以半价成本实现百万级参数大模型

Yan 模型为国内首个非 Attention 机制的通用自然语言大模型。

  • 2024-01-25
    北京
  • 本文字数:3219 字

    阅读完需:约 11 分钟

大小:1.58M时长:09:12
挑战Transformer霸权? Yan 架构竟以半价成本实现百万级参数大模型

1 月 24 日,岩芯数智正式发布自研大模型“Yan 模型”。Yan 模型采用非 Transformer 架构,为非 Attention 机制的通用自然语言大模型。据了解,该大模型有相较于同等参数 Transformer 的 7 倍训练效率、5 倍推理吞吐和 3 倍记忆能力。


昨日,在 ROCK AI 大模型发布会上,Yan 大模型展示了其在人工智能领域的一系列创新和优势。该模型在多个方面表现出超越当前 Transformer 技术的潜力。


首先,Yan 大模型在训练效率方面显示出惊人的成绩,据称比同等参数的 Transformer 提高了 7 倍。这意味着在更短的时间内,Yan 可以处理和学习更多的数据,这对于加快 AI 模型的发展至关重要。其次,它的推理吞吐量是 Transformer 的 5 倍,这使得处理实时数据和复杂任务变得更加高效。最引人注目的是,它拥有 3 倍于 Transformer 的记忆能力,这可能为处理大规模数据集和复杂的 AI 任务提供了全新的途径。


尽管 Yan 大模型是否会开源还有待确定,但其合作者已经可以免费使用这一架构,这无疑将促进技术的快速应用和发展。值得一提的是,基于 Yan 架构,仅需投入同等规模 Transformer 架构成本的 50% 甚至更低,就可以拥有百万参数级的大模型。

Transformer 架构的局限性


作为当前 AI 领域的一个基石,Transformer 的设计和性能已经在各种任务中被广泛验证。Transformer 是基于注意力机制的神经网络架构,现今在人工智能领域占据主导地位。它能够有效处理序列数据,极大提高翻译、识别等任务的效果。


全球人工智能热潮的许多主要模型和产品,如 GPT、LLAMA、PaLM 等,都是基于 Transformer 构建的。其通用性显著,虽最初设计用于语言翻译,但现也推动计算机视觉、机器人学、计算生物学等领域的发展。Transformer 的核心在于快速捕捉输入内容各部分间的相互作用,适用于处理句子中的片段、音乐中的音符、图像中的像素、蛋白质的部分等各种任务。


Transformer 的概念最早出现在谷歌研究人员 2017 年的论文《Attention is All You Need》中,这篇论文在短短 5 年内被引用了 3.8 万余次。它是编码器 - 解码器模型的一个特例,2-3 年前开始流行。在此之前,注意力机制只是模型的一部分,基于 LSTM(长短期记忆)和其他 RNN(循环神经网络)变体。


Transformers 的关键见解在于,注意力可以作为推导输入和输出之间依赖关系的唯一机制。


Transformer 的突破在于其对注意力的独特运用。它使模型在处理单词时能够关注与该单词密切相关的其他单词。在《Attention is All You Need》发表前,语言 AI 领域先进技术是 RNN,它按顺序处理数据,但在表达单词间远距离依赖关系时存在局限。注意力机制使模型无视距离,考虑单词间的关系,确定哪些单词和短语更值得关注。谷歌团队的突破在于完全舍弃 RNN,仅用 Attention 进行语言建模。


注意力机制最初在计算机视觉中提出,重点关注特定区域,忽略无关图像区域。它实现了语言处理的并行化,同时分析文本中的所有单词,而非顺序分析。Transformer 的并行化带来了更全面、准确的文本理解,以及高于 RNN 的计算效率和可扩展性。现代基于 Transformer 的模型以其规模为特点,能在更大的数据集上训练,使用更多参数。


尽管 Transformer 非常强大和通用,技术领域仍在寻求更高效、先进的解决方案来应对新挑战和需求。

尽管 Transformer 模型在人工智能领域取得了显著成就,但它们存在一些局限性,这促使研究者寻找更优的模型架构。Transformer 的主要局限性包括:


  • 参数数量庞大:Transformer 模型通常含有数百万到数十亿个参数,需要大量数据进行训练,以及昂贵的计算资源,包括高性能的 GPU 或 TPU。

  • 高昂的计算成本:标准 Transformer 模型在处理长序列时,其自注意力机制的时间和空间复杂度呈二次方增长。随着输入序列长度的增加,计算资源和时间需求成指数级增长。同时,由于参数众多和复杂的层间交互,模型在训练和推理时还需要大量内存。

  • 长序列处理困难:Transformer 架构与序列长度呈二次方关系,处理更长的序列时,内存和计算需求急剧增加,使得处理长序列变得困难。


国内首个非 Attention 机制大模型——Yan 模型


面对 Transformer 模型在处理大参数量、高计算成本和长序列困难方面的局限性,科技界迫切寻求更高效的解决方案。这些挑战促使岩芯数智研发团队开创性地开发了 Yan 模型,一个基于非 Attention 机制的创新架构。在 ROCK AI 大模型发布会上,刘凡平详细介绍了 Yan 模型的独特优势和技术进步。



他指出,Yan 架构与 OpenAI 的 GPT 系列、Meta 的 LLaMa 系列和 Google 的 PaLM 系列等基于 Transformer 架构的模型截然不同,是一种完全独立研发的新一代技术,拥有自主知识产权。


Yan 架构的主要优势在于其训练效率和资源消耗方面的显著改进。刘凡平提到,Yan 架构的训练效率是传统 Transformer 架构的 7 倍,这大大缩短了开发周期,并显著降低了成本。这对资源有限的创业公司和中小企业尤其有利。


此外,Yan 架构在保持高效能的同时,具有高推理吞吐量的特点,能够支持更多用户的同时使用。刘凡平还强调了 Yan 架构对数据隐私的重视,支持 100% 私有化部署,这对注重数据安全的企业至关重要。


他提到,Yan 架构能够在不同平台上运行,包括大型服务器和普通消费级 CPU,这增加了其在不同规模和类型企业中的应用范围。同时,Yan 在减少大模型幻觉问题方面也取得了进展,通过增强记忆能力,提高了问题回答的准确性。


在刘凡平的介绍之后,岩芯数智 CTO 杨华对 Yan 架构进行了进一步的阐释。



杨华表示,Yan 架构不依赖于传统的注意力机制或 RNN 等序列模型。通过采用线性自然语言关联特征表示、特征关联函数和记忆算子,Yan 实现了计算复杂度的显著降低和特征表达能力的增强。Yan 通过多层叠加提高网络深度,优化了模型的学习和生成复杂信息特征的能力,从而在推理效率上取得显著提升,同时大幅降低了推理成本。


杨华还介绍了基于 Yan 架构的不同参数规模的语言模型,包括 13 亿、70 亿、480 亿参数量的模型,并强调了在大规模语料上的训练过程和方法。在性能对比中,Yan 在训练效率、推理吞吐量、资源消耗和记忆能力等多个维度上均优于传统 Transformer 模型。通过应用示例,如机器翻译、古诗续写和问答系统,Yan 展示了其实际运行能力,特别是在常规消费级 CPU 设备上的流畅运行能力。


随着发布会的结束,这些技术介绍和展示吸引了与会者的极大关注,引发了大家的广泛讨论。在随后的深入采访中,刘凡平表示,Yan 模型的设计旨在满足中小企业和大型企业合作伙伴的多样化需求。这一模型以其高效、灵活且成本效益高的特点,已经在多个行业中获得了广泛的关注和应用。


刘凡平强调,Yan 模型深受多个合作伙伴的青睐,这些合作伙伴参与了与模型相关的会议,并对其表现出浓厚的兴趣;对于中小型企业而言,Yan 模型提供了一种相对低成本的技术解决方案。它通过优化模型架构,不仅提高了训练和推理的效率,还降低了客户的总体项目成本。


此外,刘凡平也谈到,Yan 模型对于离线应用场景也具有重要意义。它能够在端侧运行,支持断网情况下的应用,这对于教育等领域尤为关键。在这些领域中,Yan 模型能够为用户提供不依赖于网络环境的稳定和高效服务。在金融和制造业领域,Yan 模型可以以低成本的方式提供智能客服解决方案,优化供应商管理和高效处理内部数据等,从而提升用户体验和运营效率。

Yan 架构的潜力与挑战


从技术介绍来看,Yan 架构无疑展示了许多潜在优势,例如其在训练效率、资源消耗、推理吞吐量以及对数据隐私的重视上的显著进步。


然而,正如历史上许多技术革新所展示的,一定程度的技术优势并不总是能够直接转化为实际应用中的成功。因此,对于 Yan 架构来说,下一步至关重要的是经受市场和行业专家的实际测试和验证。这不仅是对其技术创新的检验,也是对其在实际应用环境中可行性的考量。


我们期待看到更多来自不同背景和专业领域的专家对 Yan 架构进行深入分析和实际应用测试。进一步的,对于 Yan 架构来说,吸引和鼓励更广泛的行业参与至关重要。是否能够激发开发者、创业公司和大型企业的兴趣,将是衡量其市场潜力的关键。

2024-01-25 16:077116

评论

发布
暂无评论

低功耗引擎Cliptrix有什么价值

Onegun

物联网 IoT

企业即时通讯解决方案,WorkPlus助力高效沟通与协作

WorkPlus

企业即时通讯

2023-09-27:用go语言,在一个 n x n 的国际象棋棋盘上,一个骑士从单元格 (row, column) 开始, 并尝试进行 k 次移动。行和列是 从 0 开始 的,所以左上单元格是 (0

福大大架构师每日一题

福大大架构师每日一题

适合企业的跨隔离网文件摆渡的四种方式及优缺点

镭速

跨网文件交换 跨隔离网文件摆渡

一文了解企业如何实现文件自动化实时同步

镭速

文件同步

龙蜥社区与您相约 2023 KubeCon

OpenAnolis小助手

开源 容器 云原生 龙蜥社区 kata

Sovit2D组态设计 Web Scada烟气脱硫工艺流程

2D3D前端可视化开发

物联网 组态软件 工业控制 工业自动化 烟气脱硫

软件测试/测试开发丨探索AI与测试报告的完美结合,提升工作效率

测试人

人工智能 程序员 软件测试 ChatGPT

腾讯云数据库再获顶会认可,论文入选VLDB2023

Geek_2d6073

支持私有化部署的WorkPlus,助您构建定制化的即时通讯平台

WorkPlus

打造次世代分析型数据库(四):几十张表关联?小Case!

腾讯云大数据

数据库

Java第一个程序——Hello,World!

小齐写代码

亮相数字科技出海峰会,火山引擎边缘云助力数字化出海“加速度”

火山引擎边缘云

CDN 加速 火山引擎 内容分发 火山引擎边缘计算

软件测试/测试开发丨利用人工智能自动找Bug

测试人

人工智能 程序员 软件测试 bug ChatGPT

用智能文字识别技术赋能古彝文数字化之路

dvlinker

人工智能 深度学习 合合信息 古彝文 智能文字识别技术

2000字说清音视频在社交娱乐场景中的应用!

X2Rtc

音视频 RTC 社交娱乐 融合通信

一步教会你如何获取1688商品详情

Noah

API 开发

SQL还是NoSQL?架构师必备选型技能

树上有只程序猿

nosql sql 业务

面试官:你工作了3年了,这道算法题你都答不出来?

高端章鱼哥

面试 算法 LeetCode

腾讯大牛耗时1个月整理的"JVM学习笔记"深入底层,面面俱到!

小小怪下士

Java JVM

PDF Squeezer mac(pdf文档大小压缩软件) v4.3.7永久激活版

mac

苹果mac Windows软件 PDF Squeezer 文件压缩软件

基于Java+vue开发的企业级人力资源管理系统

金陵老街

Mate 60系列搭载方舟引擎,华为游戏中心解锁飞驰游戏体验

最新动态

DEFI/DApp/DAO/IDO/LP子母币/单双币/机枪池流动性代币质押项目挖矿系统开发

l8l259l3365

四问复合索引,让你的数据查询速度飞起

华为云开发者联盟

后端 华为云 图数据库 华为云开发者联盟 企业号9月PK榜

代码检查过程中为什么需要涉及到编译呢?

华为云开发者联盟

开发 华为云 华为云开发者联盟 代码检查 企业号9月PK榜

DeFi 集成:扩大加密货币交易平台开发的视野

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 区块拉开发

软件测试 | AI大模型应用开发实训营来啦~ 大模型学习资料免费领

测试人

人工智能 程序员 AI 软件测试 大数据模型

聚焦华为全联接大会:和鲸科技与华为携手助推交叉学科应用型数据科学人才培养

ModelWhale

华为 人才培养 数据科学 高等教育 交叉学科

根据人类反馈进行强化学习的5大关键步骤

澳鹏Appen

大模型 数据训练 生成式AI LLM RLHF

免费但很全能,Amazon CodeWhisperer 让编程更快

科技热闻

挑战Transformer霸权? Yan 架构竟以半价成本实现百万级参数大模型_生成式 AI_李忠良_InfoQ精选文章