写点什么

浪潮信息发布“源 2.0”,千亿参数大模型开源可商用

  • 2023-12-01
    北京
  • 本文字数:3745 字

    阅读完需:约 12 分钟

大小:1.84M时长:10:43
浪潮信息发布“源2.0”,千亿参数大模型开源可商用

11 月 27 日,浪潮信息正式发布千亿级基础大模型“源 2.0”。该系列模型全面开源可商用,共包括参数值 102B(1026 亿)、51B(518 亿)、2B(21 亿)三个版本。与源 1.0 相比,源 2.0 在编程、推理、逻辑等方面均有提升。在 HumanEval、AGIEval、GMS8K 榜单中,源 2.0 可比肩 GPT4。

聚焦算法、数据和算力,源 2.0 如何再升级?

 

2021 年,浪潮信息曾发布中文巨量模型“源 1.0”,其参数规模为 2457 亿,该模型在语言智能方面表现优异,获得中文语言理解评测基准 CLUE 榜单的零样本学习(zero-shot)和小样本学习(few-shot)两类总榜冠军。

 

据浪潮信息人工智能软件研发总监吴韶华博士介绍,与源 1.0 相比,本次发布的源 2.0 在算法、数据和算力三大方向上均有升级创新。

 

在算法创新方面,源 1.0 的结构是一个典型的 Transformer 结构,而在源 2.0 中,团队在模型结构算法方面进行了重大创新,在 Transformer 结构中完全替换了自注意力层,创新型地提出新型 Attention 结构:局部注意力过滤增强机制 LFA(Localized Filtering-based Attention),通过先强化相邻词之间的关联性,然后再计算全局关联性的方法,模型能够更好地处理自然语言的语序排列问题,对于中文语境的关联语义理解更准确、更人性,为大模型创业者和开发者提供更加丰富、全面的助力,和更加开放的技术创新空间。

 

之所以设计这样的模型结构,是因为在经典的 Transformer 结构中,主要依赖自注意力机制来学习输入词之间的关系。以“我想吃中国菜”为例,当这句话输入模型时,首先需要进行分词,分词后可能会得到“我”、“想”、“吃”、“中国”、“菜”这几个词。然而,在自然语言中,“中国”和“菜”这两个词之间存在更强的关系和局部依赖性,“中国”直接修饰“菜”,而不修饰其他词。这种局部依赖性是自然语言中的一种强烈特性或模式。因此,浪潮信息团队设计了 LFA 结构来更好地捕捉这种局部依赖性,从而提高模型的效果和性能。

 

“在提出 LFA 结构的过程中,我们进行了一系列实验以寻找最佳结构。其中,最大的 Attention basic 实际上采用了 LLaMA 结构,消融实验中的模型也都基于 LLaMA 结构,唯一的区别在于 Attention 部分的实现方式。”吴韶华博士提到,相关研究表明,EMA 算法可以提高精度,降低测试损失值。但 EMA 在时序上全相关,计算逻辑复杂,需要使用快速傅里叶变换求解,导致计算开销非常大。因此,团队选择改进 EMA 结构。

 

“我们的改进方向是考虑 EMA 的局部性。最初,我们引入了卷积形式,通过变换卷积内核来实现全局结构和局部结构的互补。实验表明,随着卷积内核的提升,精度持续提升,但模型参数量和训练耗时也随之增加。由于参数量增加会导致更大的内存开销和训练成本,我们尝试保证更高精度的情况下降低参数量。我们将一层卷积改为两层,卷积尺寸保持不变,从而在计算量、内存开销和精度之间找到更好的平衡。为确保稳定计算,我们引入了 RMSNorm 机制。虽然这会增加一定计算耗时,但也带来了更高的精度表现。源 2.0 最终采用的算法结构是全卷积加上 RMSNorm 构建的 LFA 结构。”吴韶华博士补充道。

 

据介绍,源 2.0 的训练损失曲线表明,新结构可以有效提升精度、降低损失值。此外,源 2.0 在训练过程中的实际 tokens 数为 288Btokens,最大参数只有 1026 亿。与参数量为 2457 亿的源 1.0 相比,源 2.0 的训练损失值更低,说明源 2.0 对训练数据的特征学习能力更强。而这种改进主要归功于模型结构方面的优化。

 

在数据创新方面,源 1.0 主要使用了从互联网爬取的数据,团队通过构建一套海量数据清洗系统,对过去五年的中国互联网数据进行清洗,采用多种手段提纯数据,从 800 多 TB 压缩到 5TB,但这 5TB 的数据质量仍有提升空间。

 

在源 2.0 中,团队从两个角度构建数据集:一方面,从互联网上搜集本身质量较高的数据,如百科、书籍等;另一方面,筛选和翻译论文数据。此外,团队还引入了一部分独特的数据,包括社群数据和代码数据。为了获取高质量的中文社群数据,团队清洗了从 2018 年到 2023 年互联网上所有中文网页中的社群数据。经过清洗后发现,原始数据源约为 12PB,最终得到的中文社群数据量却只有不到 10GB,数据压缩比非常高。即便如此,其质量仍然不够高。

 

“我们采用了一种基于大模型生成高质量数据的方法,将这部分高质量数据用于预训练过程。具体构建策略是选取一批种子数据,进行扩充并放入大模型中生成合适的问题,再将问题送入模型生成合适的答案。在这个过程中,我们建立了一套自洽的逻辑来筛选数据。尽管这些数据是由大模型生成的,但我们仍然构建了一套额外的数据清洗流程来确保数据质量。我们将这些社群数据和代码数据应用于进一步的预训练的微调过程中。”吴韶华博士表示,这套数据构建方法能有效地解决互联网海量数据清洗中,即便投入大量精力也难以获得高质量数据的问题。当源 2.0 模型构建完成后,团队的后续计划是利用自己的模型生成更高质量的数据,形成一个数据循环,持续迭代并提升大模型能力。

 

在算力创新方面,为了使模型在各类计算设备上都有出色的性能表现,团队提出了一种创新的分布式计算方法,该方法结合了非均匀流水并行、优化器参数并行、数据并行以及损失计算分块。这种计算方法能够显著降低大模型训练过程中节点内 AI 芯片之间的通讯带宽需求。与传统的以张量并行为主的三维并行方法相比,这种方法具有更广泛的适应性,对带宽需求更小,同时能获得更高的性能表现。

 

为了对算法能力进行定量分析,团队还构建了两个性能模型。第一个是针对经典的张量并行、流水并行和数据并行构建的计算模型,这个模型考虑了训练过程中每一步迭代的耗时与各个参数之间的关系。在源 2.0 中,团队使用了分布式训练方法,并构建了第二种计算性能模型。这个模型考虑了流水并行、数据并行和优化器参数并行对整个计算时间的影响。

“百模大战”进入下半场,开源才是“最优解”

 

大模型的开源开放可以使不同的模型之间共享底层数据、算法和代码,有利于打破大模型孤岛,促进模型之间协作和更新迭代,并推动 AI 开发变得更加灵活和高效。同时,开源开放有利于推进“技术+行业”的闭环,以更丰富的高质量行业数据反哺模型,打造更强的技术产品,加速商业化进程。

 

浪潮信息董事长彭震曾公开表示,面对“AI 时代”的来临,“单打独斗”已不适应大科学时代的科技创新。随着“百模大战”进入下半场,经过众多科技探索和市场试错,业界共识也已经逐渐明晰:繁荣的开源模型生态体系是吸纳、培养用户的重要途经,也是避免当下 AI 大模型企业重复造轮子的商业新范式。

 

首先,大模型需要巨量资金的持续投入,B 端市场同样面临这个问题,从这一点说,大公司做大模型更有优势和可持续性,能够保持长期的重型投入,不断迭代,这个能力对于 B 端市场十分重要;其次,“众人拾柴火焰高”,以优秀的开源模型性能汇聚技术创新力量,以技术创新反哺大模型数据、工具、应用的迭代升级,才能为全球开发者、研究机构、科技企业提供坚实的底座和成长的土壤,激发无穷创新力。

 

自 2021 年发布开源开放计划以来,浪潮信息通过强大的通用智能和全栈的工具链服务能力,助力千行百业的开发者孵化出更多的爆款应用。此前浪潮信息发布的“源 1.0”大模型作为一种算法基础设施,构建了完善的开源平台和社区生态,方便开发者能够将自己的创意快速落地。据介绍,有开发者基于浪潮中文巨量模型“源 1.0”训练,用 B 站评论训练出一个反诈 AI;也有开发者基于“源 1.0”开发了一个“AI 剧本杀平台”,目前,业内还没有完全开源可商用的千亿大模型。本次全面开源的源 2.0 可以助力更多开发者打造生产工具,让大模型在更多场景中落地应用。

 

此外,在 11 月 29 日的 AICC 2023 人工智能计算大会上,浪潮信息还公布了源大模型共训计划:针对开发者自己的应用或场景需求,通过自研数据平台生成训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。开发者只需要提出需求,说清楚具体的应用场景、对大模型的能力需求以及 1~2 条示例,由源团队来进行数据准备、模型训练并开源。

 

浪潮信息高级副总裁刘军认为,大模型的开源能够促进整个产业的协同发展,回顾过去所有成功的开源项目,它们都是整个社区的共同贡献所取得的成果。这就是开源的核心精神,即“我为人人,人人为我”。“我们希望这个产业能够百花齐放、更加丰富。因此,我们开源了我们的工作和整个代码、模型,以便其他人可以在我们的模型上取得出色的表现。虽然我们的模型可能无法在每个方面与 GPT-4 相媲美,但在某些重要方面,我们展示了先进的能力。这样,我们的开发者和用户可以在我们的模型上产生出色的用户端应用体验,这对于生态的发展至关重要。”

 

当前,中国做大模型的公司与 OpenAI 仍存在较大差距,而开源能够释放整个社区的智慧,一起进行生态和能力的建设,这也是我们尽快追赶国外领先公司的可行路径。刘军提到,当前很多模型都选择开源,未来的生成式 AI 是一个多元化的生态,每个模型都可能有其最擅长的能力。比如,A 模型擅长这些部分,B 模型擅长那些部分,C 模型擅长其他部分。大家加在一起可能就是一个非常出色的能力集合。“这个场景一定会出现的,在行业用户最终部署时,可能会有不同的模型在背后支撑。这就是我们对开源的思考。开源不是有你无我的关系,而是共同发展、共同服务客户的生态。”

2023-12-01 15:227492

评论

发布
暂无评论
发现更多内容

直播系统聊天技术(八):vivo直播系统中IM消息模块的架构实践

JackJiang

网络编程 架构设计 即时通讯 IM

直播|一次镜像,处处运行!如何制作一个 StarRocks Docker 镜像?

StarRocks

基于BiGRU和GAN的数据生成方法

行者AI

人工智能

研发团队数字化转型实践

思码逸研发效能

研发效能 数字化

使用设备树时对应的驱动编程

贾献华

8月月更

BPM是什么意思?BPM的优势及好处有哪些?

优秀

BPM

官网应用开发文档及学习资源7月上新汇总

HarmonyOS开发者

HarmonyOS

分布式一致性如何实现?- Raft 算法

了凡跨境洞察

分布式 微服务架构 raft 一致性算法 一致性

AIOps智能运维的领跑者擎创科技正式入驻InfoQ 写作社区!

擎创夏洛克AIOps

AIOPS 智能运维 IT运维 大数据运维 智能运维AIOps

OneFlow源码解析:Op、Kernel与解释器

OneFlow

深度学习 源码解析

TiFlash 存储层概览

TiDB 社区干货传送门

数据库 分布式数据库 TiDB

实战模拟│微信 JSSDK 实现自定义分享、手机选图拍照、图片音频处理、地理位置、摇一摇等功能

经验分享 微信开发 签约计划第三季 8月月更 jssdk

浅谈大数据背景下数据库安全保障体系

阿炜小菜鸡

数据库

Open Serverless Benchmark Initiative: 华为云联合上海交大发布ServerlessBench 2.0

华为云开发者联盟

Serverless 华为云

分析Flask WSGI经过Nginx代理出现两次302问题

西北望高楼

flask Python.

面对营销难,有米云指出一条破局之路

ToB行业头条

30分钟成为Contributor|如何多方位参与OpenHarmony开源贡献?

OpenHarmony开发者

Open Harmony

浅谈游戏音效测试点

行者AI

游戏测试

Git 不要只会 pull 和 push,学学这 5 条提高效率的命令(下)

CRMEB

Rancher 部署 DataKit 最佳实践

观测云

LeaRun.net快速开发动态表单

力软低代码开发平台

今年最火爆的词:商业分析,看这一篇就够了!

博文视点Broadview

百图生科卓越开发者计划全面升级暨《计算免疫问题白皮书》发布

硬科技星球

80篇国产数据库实操文档汇总(含TiDB、达梦、openGauss等)

墨天轮

数据库 opengauss TiDB 国产数据库 南大通用

暑气渐敛,8月让我们开源一夏!

InfoQ写作社区官方

开源 热门活动 8月月更

DBPack SQL Tracing 功能及数据加密功能详解

峨嵋闲散人

分布式事务 分库分表 读写分离 dbmesh Database Mesh

面试必问系列之最强源码分析,带你一步步弄清楚Spring如何解决循环依赖

小隐乐乐

Java 面试题 Spring5源码解析

JavaScript高级程序设计-迭代器

掘金安东尼

JavaScript 前端 8月月更

以消费场景为驱动的CMDB要怎么建?

鲸品堂

直播app开发,是优化直播体验不得不关注的两大指标

开源直播系统源码

软件开发 直播系统源码 语音直播系统源码 直播app

AntDB数据库亮相24届高速展,助力智慧高速创新应用

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

浪潮信息发布“源2.0”,千亿参数大模型开源可商用_生成式 AI_凌敏_InfoQ精选文章