「ArchSummit·深圳」人工智能如何促进工业和制造领域的智能化转型? >>> 了解详情
写点什么

浪潮信息发布“源 2.0”,千亿参数大模型开源可商用

  • 2023-12-01
    北京
  • 本文字数:3745 字

    阅读完需:约 12 分钟

大小:1.84M时长:10:43
浪潮信息发布“源2.0”,千亿参数大模型开源可商用

11 月 27 日,浪潮信息正式发布千亿级基础大模型“源 2.0”。该系列模型全面开源可商用,共包括参数值 102B(1026 亿)、51B(518 亿)、2B(21 亿)三个版本。与源 1.0 相比,源 2.0 在编程、推理、逻辑等方面均有提升。在 HumanEval、AGIEval、GMS8K 榜单中,源 2.0 可比肩 GPT4。

聚焦算法、数据和算力,源 2.0 如何再升级?

 

2021 年,浪潮信息曾发布中文巨量模型“源 1.0”,其参数规模为 2457 亿,该模型在语言智能方面表现优异,获得中文语言理解评测基准 CLUE 榜单的零样本学习(zero-shot)和小样本学习(few-shot)两类总榜冠军。

 

据浪潮信息人工智能软件研发总监吴韶华博士介绍,与源 1.0 相比,本次发布的源 2.0 在算法、数据和算力三大方向上均有升级创新。

 

在算法创新方面,源 1.0 的结构是一个典型的 Transformer 结构,而在源 2.0 中,团队在模型结构算法方面进行了重大创新,在 Transformer 结构中完全替换了自注意力层,创新型地提出新型 Attention 结构:局部注意力过滤增强机制 LFA(Localized Filtering-based Attention),通过先强化相邻词之间的关联性,然后再计算全局关联性的方法,模型能够更好地处理自然语言的语序排列问题,对于中文语境的关联语义理解更准确、更人性,为大模型创业者和开发者提供更加丰富、全面的助力,和更加开放的技术创新空间。

 

之所以设计这样的模型结构,是因为在经典的 Transformer 结构中,主要依赖自注意力机制来学习输入词之间的关系。以“我想吃中国菜”为例,当这句话输入模型时,首先需要进行分词,分词后可能会得到“我”、“想”、“吃”、“中国”、“菜”这几个词。然而,在自然语言中,“中国”和“菜”这两个词之间存在更强的关系和局部依赖性,“中国”直接修饰“菜”,而不修饰其他词。这种局部依赖性是自然语言中的一种强烈特性或模式。因此,浪潮信息团队设计了 LFA 结构来更好地捕捉这种局部依赖性,从而提高模型的效果和性能。

 

“在提出 LFA 结构的过程中,我们进行了一系列实验以寻找最佳结构。其中,最大的 Attention basic 实际上采用了 LLaMA 结构,消融实验中的模型也都基于 LLaMA 结构,唯一的区别在于 Attention 部分的实现方式。”吴韶华博士提到,相关研究表明,EMA 算法可以提高精度,降低测试损失值。但 EMA 在时序上全相关,计算逻辑复杂,需要使用快速傅里叶变换求解,导致计算开销非常大。因此,团队选择改进 EMA 结构。

 

“我们的改进方向是考虑 EMA 的局部性。最初,我们引入了卷积形式,通过变换卷积内核来实现全局结构和局部结构的互补。实验表明,随着卷积内核的提升,精度持续提升,但模型参数量和训练耗时也随之增加。由于参数量增加会导致更大的内存开销和训练成本,我们尝试保证更高精度的情况下降低参数量。我们将一层卷积改为两层,卷积尺寸保持不变,从而在计算量、内存开销和精度之间找到更好的平衡。为确保稳定计算,我们引入了 RMSNorm 机制。虽然这会增加一定计算耗时,但也带来了更高的精度表现。源 2.0 最终采用的算法结构是全卷积加上 RMSNorm 构建的 LFA 结构。”吴韶华博士补充道。

 

据介绍,源 2.0 的训练损失曲线表明,新结构可以有效提升精度、降低损失值。此外,源 2.0 在训练过程中的实际 tokens 数为 288Btokens,最大参数只有 1026 亿。与参数量为 2457 亿的源 1.0 相比,源 2.0 的训练损失值更低,说明源 2.0 对训练数据的特征学习能力更强。而这种改进主要归功于模型结构方面的优化。

 

在数据创新方面,源 1.0 主要使用了从互联网爬取的数据,团队通过构建一套海量数据清洗系统,对过去五年的中国互联网数据进行清洗,采用多种手段提纯数据,从 800 多 TB 压缩到 5TB,但这 5TB 的数据质量仍有提升空间。

 

在源 2.0 中,团队从两个角度构建数据集:一方面,从互联网上搜集本身质量较高的数据,如百科、书籍等;另一方面,筛选和翻译论文数据。此外,团队还引入了一部分独特的数据,包括社群数据和代码数据。为了获取高质量的中文社群数据,团队清洗了从 2018 年到 2023 年互联网上所有中文网页中的社群数据。经过清洗后发现,原始数据源约为 12PB,最终得到的中文社群数据量却只有不到 10GB,数据压缩比非常高。即便如此,其质量仍然不够高。

 

“我们采用了一种基于大模型生成高质量数据的方法,将这部分高质量数据用于预训练过程。具体构建策略是选取一批种子数据,进行扩充并放入大模型中生成合适的问题,再将问题送入模型生成合适的答案。在这个过程中,我们建立了一套自洽的逻辑来筛选数据。尽管这些数据是由大模型生成的,但我们仍然构建了一套额外的数据清洗流程来确保数据质量。我们将这些社群数据和代码数据应用于进一步的预训练的微调过程中。”吴韶华博士表示,这套数据构建方法能有效地解决互联网海量数据清洗中,即便投入大量精力也难以获得高质量数据的问题。当源 2.0 模型构建完成后,团队的后续计划是利用自己的模型生成更高质量的数据,形成一个数据循环,持续迭代并提升大模型能力。

 

在算力创新方面,为了使模型在各类计算设备上都有出色的性能表现,团队提出了一种创新的分布式计算方法,该方法结合了非均匀流水并行、优化器参数并行、数据并行以及损失计算分块。这种计算方法能够显著降低大模型训练过程中节点内 AI 芯片之间的通讯带宽需求。与传统的以张量并行为主的三维并行方法相比,这种方法具有更广泛的适应性,对带宽需求更小,同时能获得更高的性能表现。

 

为了对算法能力进行定量分析,团队还构建了两个性能模型。第一个是针对经典的张量并行、流水并行和数据并行构建的计算模型,这个模型考虑了训练过程中每一步迭代的耗时与各个参数之间的关系。在源 2.0 中,团队使用了分布式训练方法,并构建了第二种计算性能模型。这个模型考虑了流水并行、数据并行和优化器参数并行对整个计算时间的影响。

“百模大战”进入下半场,开源才是“最优解”

 

大模型的开源开放可以使不同的模型之间共享底层数据、算法和代码,有利于打破大模型孤岛,促进模型之间协作和更新迭代,并推动 AI 开发变得更加灵活和高效。同时,开源开放有利于推进“技术+行业”的闭环,以更丰富的高质量行业数据反哺模型,打造更强的技术产品,加速商业化进程。

 

浪潮信息董事长彭震曾公开表示,面对“AI 时代”的来临,“单打独斗”已不适应大科学时代的科技创新。随着“百模大战”进入下半场,经过众多科技探索和市场试错,业界共识也已经逐渐明晰:繁荣的开源模型生态体系是吸纳、培养用户的重要途经,也是避免当下 AI 大模型企业重复造轮子的商业新范式。

 

首先,大模型需要巨量资金的持续投入,B 端市场同样面临这个问题,从这一点说,大公司做大模型更有优势和可持续性,能够保持长期的重型投入,不断迭代,这个能力对于 B 端市场十分重要;其次,“众人拾柴火焰高”,以优秀的开源模型性能汇聚技术创新力量,以技术创新反哺大模型数据、工具、应用的迭代升级,才能为全球开发者、研究机构、科技企业提供坚实的底座和成长的土壤,激发无穷创新力。

 

自 2021 年发布开源开放计划以来,浪潮信息通过强大的通用智能和全栈的工具链服务能力,助力千行百业的开发者孵化出更多的爆款应用。此前浪潮信息发布的“源 1.0”大模型作为一种算法基础设施,构建了完善的开源平台和社区生态,方便开发者能够将自己的创意快速落地。据介绍,有开发者基于浪潮中文巨量模型“源 1.0”训练,用 B 站评论训练出一个反诈 AI;也有开发者基于“源 1.0”开发了一个“AI 剧本杀平台”,目前,业内还没有完全开源可商用的千亿大模型。本次全面开源的源 2.0 可以助力更多开发者打造生产工具,让大模型在更多场景中落地应用。

 

此外,在 11 月 29 日的 AICC 2023 人工智能计算大会上,浪潮信息还公布了源大模型共训计划:针对开发者自己的应用或场景需求,通过自研数据平台生成训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。开发者只需要提出需求,说清楚具体的应用场景、对大模型的能力需求以及 1~2 条示例,由源团队来进行数据准备、模型训练并开源。

 

浪潮信息高级副总裁刘军认为,大模型的开源能够促进整个产业的协同发展,回顾过去所有成功的开源项目,它们都是整个社区的共同贡献所取得的成果。这就是开源的核心精神,即“我为人人,人人为我”。“我们希望这个产业能够百花齐放、更加丰富。因此,我们开源了我们的工作和整个代码、模型,以便其他人可以在我们的模型上取得出色的表现。虽然我们的模型可能无法在每个方面与 GPT-4 相媲美,但在某些重要方面,我们展示了先进的能力。这样,我们的开发者和用户可以在我们的模型上产生出色的用户端应用体验,这对于生态的发展至关重要。”

 

当前,中国做大模型的公司与 OpenAI 仍存在较大差距,而开源能够释放整个社区的智慧,一起进行生态和能力的建设,这也是我们尽快追赶国外领先公司的可行路径。刘军提到,当前很多模型都选择开源,未来的生成式 AI 是一个多元化的生态,每个模型都可能有其最擅长的能力。比如,A 模型擅长这些部分,B 模型擅长那些部分,C 模型擅长其他部分。大家加在一起可能就是一个非常出色的能力集合。“这个场景一定会出现的,在行业用户最终部署时,可能会有不同的模型在背后支撑。这就是我们对开源的思考。开源不是有你无我的关系,而是共同发展、共同服务客户的生态。”

2023-12-01 15:225956

评论

发布
暂无评论
发现更多内容

「CSS畅想」当我拥有了一个小夜灯,我的CSS副属性被激活了

叶一一

CSS JavaScript 前端 10月月更

「CSS畅想」有一天,我遇到了一个奇特的路灯,眼里一下子有了光

叶一一

CSS JavaScript 前端 10月月更

长安链源码分析之网络模块 net-liquid(2)

Linux 中 Grep 命令的常见示例,非常全面!

wljslmz

Linux grep 10月月更

Python进阶(二十四)Python中函数的参数定义和可变参数

No Silver Bullet

Python 函数 可变参数 10月月更

PriorityQueue 源码解析(二)

知识浅谈

Priority Queue 10月月更

谈谈PHP switch case和其他语言的区别

芥末拌个饭吧

php Go 10月月更

flask sqlalchemy使用简述

芥末拌个饭吧

sqlalchemy python 3.5+ 10月月更

读书笔记 | 你最终能走多远,取决于见识

宇宙之一粟

读书笔记 10月月更

Python还不会用日志模块?本文给你答案

芥末拌个饭吧

python 3.5+ logging模块 10月月更

跟着卷卷龙一起学Camera--双摄04

卷卷龙

ISP camera 10月月更

跟着卷卷龙一起学Camera--双摄05

卷卷龙

ISP camera 10月月更

【一Go到底】第十六天---跳转控制goto&return

指剑

Go golang 10月月更

python程序能打包吗?看这篇就知道了

芥末拌个饭吧

python 3.5+ pyinstaller 10月月更

「趣学前端」提到布局,我第一个会想到的是flex

叶一一

CSS 前端 10月月更

Docker搭建私有镜像仓库与WordPress

okokabcd

Docker

跟着卷卷龙一起学Camera--双摄03

卷卷龙

ISP camera 10月月更

长安链源码分析之网络模块net-liquid(1)

2022-10-15:给你一个整数数组 nums 和一个整数 k ,请你返回其中出现频率前 k 高的元素。 你可以按 任意顺序 返回答案。 要求时间复杂度O(N)。 输入: nums = [1,1,1

福大大架构师每日一题

算法 rust 福大大

【c++图论例题学习】洛谷 P3366最小生成树

贤鱼很忙

10月月更

【c++图论学习】洛谷P1396营救

贤鱼很忙

c++ 算法 10月月更

【LeetCode】用栈操作构建数组Java题解

Albert

算法 LeetCode 10月月更

如何在 SAP BTP Java 应用里使用 SAP HANA 数据库

Jerry Wang

云原生 Cloud SAP 10月月更 btp

「趣学前端」玩转CSS的2D转换,也许能有个代码纸片人

叶一一

CSS 前端 10月月更

CorelDRAW 2019 软件应用项目(一)

张立梵

设计师 CorelDRAW 2022 10月月更

STM32L0 系列 EEPROM 读写,程序卡死?

矜辰所致

EEPROM STM32L051 10月月更

TSDB在高速公路大数据平台的应用

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

可能的二分法

掘金安东尼

算法 10月月更

Goroutine是什么?进程、线程、协程又是什么?有什么区别和联系?

王中阳Go

Go 线程 进程 协程 10月月更

我用【c++】写出了会说话的学生考勤系统

贤鱼很忙

c++ 10月月更

【一Go到底】第十六天---函数

指剑

Go golang 10月月更

浪潮信息发布“源2.0”,千亿参数大模型开源可商用_生成式 AI_凌敏_InfoQ精选文章