10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

浪潮信息发布“源 2.0”,千亿参数大模型开源可商用

  • 2023-12-01
    北京
  • 本文字数:3745 字

    阅读完需:约 12 分钟

大小:1.84M时长:10:43
浪潮信息发布“源2.0”,千亿参数大模型开源可商用

11 月 27 日,浪潮信息正式发布千亿级基础大模型“源 2.0”。该系列模型全面开源可商用,共包括参数值 102B(1026 亿)、51B(518 亿)、2B(21 亿)三个版本。与源 1.0 相比,源 2.0 在编程、推理、逻辑等方面均有提升。在 HumanEval、AGIEval、GMS8K 榜单中,源 2.0 可比肩 GPT4。

聚焦算法、数据和算力,源 2.0 如何再升级?

 

2021 年,浪潮信息曾发布中文巨量模型“源 1.0”,其参数规模为 2457 亿,该模型在语言智能方面表现优异,获得中文语言理解评测基准 CLUE 榜单的零样本学习(zero-shot)和小样本学习(few-shot)两类总榜冠军。

 

据浪潮信息人工智能软件研发总监吴韶华博士介绍,与源 1.0 相比,本次发布的源 2.0 在算法、数据和算力三大方向上均有升级创新。

 

在算法创新方面,源 1.0 的结构是一个典型的 Transformer 结构,而在源 2.0 中,团队在模型结构算法方面进行了重大创新,在 Transformer 结构中完全替换了自注意力层,创新型地提出新型 Attention 结构:局部注意力过滤增强机制 LFA(Localized Filtering-based Attention),通过先强化相邻词之间的关联性,然后再计算全局关联性的方法,模型能够更好地处理自然语言的语序排列问题,对于中文语境的关联语义理解更准确、更人性,为大模型创业者和开发者提供更加丰富、全面的助力,和更加开放的技术创新空间。

 

之所以设计这样的模型结构,是因为在经典的 Transformer 结构中,主要依赖自注意力机制来学习输入词之间的关系。以“我想吃中国菜”为例,当这句话输入模型时,首先需要进行分词,分词后可能会得到“我”、“想”、“吃”、“中国”、“菜”这几个词。然而,在自然语言中,“中国”和“菜”这两个词之间存在更强的关系和局部依赖性,“中国”直接修饰“菜”,而不修饰其他词。这种局部依赖性是自然语言中的一种强烈特性或模式。因此,浪潮信息团队设计了 LFA 结构来更好地捕捉这种局部依赖性,从而提高模型的效果和性能。

 

“在提出 LFA 结构的过程中,我们进行了一系列实验以寻找最佳结构。其中,最大的 Attention basic 实际上采用了 LLaMA 结构,消融实验中的模型也都基于 LLaMA 结构,唯一的区别在于 Attention 部分的实现方式。”吴韶华博士提到,相关研究表明,EMA 算法可以提高精度,降低测试损失值。但 EMA 在时序上全相关,计算逻辑复杂,需要使用快速傅里叶变换求解,导致计算开销非常大。因此,团队选择改进 EMA 结构。

 

“我们的改进方向是考虑 EMA 的局部性。最初,我们引入了卷积形式,通过变换卷积内核来实现全局结构和局部结构的互补。实验表明,随着卷积内核的提升,精度持续提升,但模型参数量和训练耗时也随之增加。由于参数量增加会导致更大的内存开销和训练成本,我们尝试保证更高精度的情况下降低参数量。我们将一层卷积改为两层,卷积尺寸保持不变,从而在计算量、内存开销和精度之间找到更好的平衡。为确保稳定计算,我们引入了 RMSNorm 机制。虽然这会增加一定计算耗时,但也带来了更高的精度表现。源 2.0 最终采用的算法结构是全卷积加上 RMSNorm 构建的 LFA 结构。”吴韶华博士补充道。

 

据介绍,源 2.0 的训练损失曲线表明,新结构可以有效提升精度、降低损失值。此外,源 2.0 在训练过程中的实际 tokens 数为 288Btokens,最大参数只有 1026 亿。与参数量为 2457 亿的源 1.0 相比,源 2.0 的训练损失值更低,说明源 2.0 对训练数据的特征学习能力更强。而这种改进主要归功于模型结构方面的优化。

 

在数据创新方面,源 1.0 主要使用了从互联网爬取的数据,团队通过构建一套海量数据清洗系统,对过去五年的中国互联网数据进行清洗,采用多种手段提纯数据,从 800 多 TB 压缩到 5TB,但这 5TB 的数据质量仍有提升空间。

 

在源 2.0 中,团队从两个角度构建数据集:一方面,从互联网上搜集本身质量较高的数据,如百科、书籍等;另一方面,筛选和翻译论文数据。此外,团队还引入了一部分独特的数据,包括社群数据和代码数据。为了获取高质量的中文社群数据,团队清洗了从 2018 年到 2023 年互联网上所有中文网页中的社群数据。经过清洗后发现,原始数据源约为 12PB,最终得到的中文社群数据量却只有不到 10GB,数据压缩比非常高。即便如此,其质量仍然不够高。

 

“我们采用了一种基于大模型生成高质量数据的方法,将这部分高质量数据用于预训练过程。具体构建策略是选取一批种子数据,进行扩充并放入大模型中生成合适的问题,再将问题送入模型生成合适的答案。在这个过程中,我们建立了一套自洽的逻辑来筛选数据。尽管这些数据是由大模型生成的,但我们仍然构建了一套额外的数据清洗流程来确保数据质量。我们将这些社群数据和代码数据应用于进一步的预训练的微调过程中。”吴韶华博士表示,这套数据构建方法能有效地解决互联网海量数据清洗中,即便投入大量精力也难以获得高质量数据的问题。当源 2.0 模型构建完成后,团队的后续计划是利用自己的模型生成更高质量的数据,形成一个数据循环,持续迭代并提升大模型能力。

 

在算力创新方面,为了使模型在各类计算设备上都有出色的性能表现,团队提出了一种创新的分布式计算方法,该方法结合了非均匀流水并行、优化器参数并行、数据并行以及损失计算分块。这种计算方法能够显著降低大模型训练过程中节点内 AI 芯片之间的通讯带宽需求。与传统的以张量并行为主的三维并行方法相比,这种方法具有更广泛的适应性,对带宽需求更小,同时能获得更高的性能表现。

 

为了对算法能力进行定量分析,团队还构建了两个性能模型。第一个是针对经典的张量并行、流水并行和数据并行构建的计算模型,这个模型考虑了训练过程中每一步迭代的耗时与各个参数之间的关系。在源 2.0 中,团队使用了分布式训练方法,并构建了第二种计算性能模型。这个模型考虑了流水并行、数据并行和优化器参数并行对整个计算时间的影响。

“百模大战”进入下半场,开源才是“最优解”

 

大模型的开源开放可以使不同的模型之间共享底层数据、算法和代码,有利于打破大模型孤岛,促进模型之间协作和更新迭代,并推动 AI 开发变得更加灵活和高效。同时,开源开放有利于推进“技术+行业”的闭环,以更丰富的高质量行业数据反哺模型,打造更强的技术产品,加速商业化进程。

 

浪潮信息董事长彭震曾公开表示,面对“AI 时代”的来临,“单打独斗”已不适应大科学时代的科技创新。随着“百模大战”进入下半场,经过众多科技探索和市场试错,业界共识也已经逐渐明晰:繁荣的开源模型生态体系是吸纳、培养用户的重要途经,也是避免当下 AI 大模型企业重复造轮子的商业新范式。

 

首先,大模型需要巨量资金的持续投入,B 端市场同样面临这个问题,从这一点说,大公司做大模型更有优势和可持续性,能够保持长期的重型投入,不断迭代,这个能力对于 B 端市场十分重要;其次,“众人拾柴火焰高”,以优秀的开源模型性能汇聚技术创新力量,以技术创新反哺大模型数据、工具、应用的迭代升级,才能为全球开发者、研究机构、科技企业提供坚实的底座和成长的土壤,激发无穷创新力。

 

自 2021 年发布开源开放计划以来,浪潮信息通过强大的通用智能和全栈的工具链服务能力,助力千行百业的开发者孵化出更多的爆款应用。此前浪潮信息发布的“源 1.0”大模型作为一种算法基础设施,构建了完善的开源平台和社区生态,方便开发者能够将自己的创意快速落地。据介绍,有开发者基于浪潮中文巨量模型“源 1.0”训练,用 B 站评论训练出一个反诈 AI;也有开发者基于“源 1.0”开发了一个“AI 剧本杀平台”,目前,业内还没有完全开源可商用的千亿大模型。本次全面开源的源 2.0 可以助力更多开发者打造生产工具,让大模型在更多场景中落地应用。

 

此外,在 11 月 29 日的 AICC 2023 人工智能计算大会上,浪潮信息还公布了源大模型共训计划:针对开发者自己的应用或场景需求,通过自研数据平台生成训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。开发者只需要提出需求,说清楚具体的应用场景、对大模型的能力需求以及 1~2 条示例,由源团队来进行数据准备、模型训练并开源。

 

浪潮信息高级副总裁刘军认为,大模型的开源能够促进整个产业的协同发展,回顾过去所有成功的开源项目,它们都是整个社区的共同贡献所取得的成果。这就是开源的核心精神,即“我为人人,人人为我”。“我们希望这个产业能够百花齐放、更加丰富。因此,我们开源了我们的工作和整个代码、模型,以便其他人可以在我们的模型上取得出色的表现。虽然我们的模型可能无法在每个方面与 GPT-4 相媲美,但在某些重要方面,我们展示了先进的能力。这样,我们的开发者和用户可以在我们的模型上产生出色的用户端应用体验,这对于生态的发展至关重要。”

 

当前,中国做大模型的公司与 OpenAI 仍存在较大差距,而开源能够释放整个社区的智慧,一起进行生态和能力的建设,这也是我们尽快追赶国外领先公司的可行路径。刘军提到,当前很多模型都选择开源,未来的生成式 AI 是一个多元化的生态,每个模型都可能有其最擅长的能力。比如,A 模型擅长这些部分,B 模型擅长那些部分,C 模型擅长其他部分。大家加在一起可能就是一个非常出色的能力集合。“这个场景一定会出现的,在行业用户最终部署时,可能会有不同的模型在背后支撑。这就是我们对开源的思考。开源不是有你无我的关系,而是共同发展、共同服务客户的生态。”

2023-12-01 15:227374

评论

发布
暂无评论
发现更多内容

胜天半子!阿里内部力荐SpringBoot全栈笔记全网首发,源码实战齐飞

Java架构之路

Java 程序员 架构 面试 编程语言

百度首届智能小程序高校大赛圆满结束:关注学生心理健康小程序获全国一等奖

DT极客

边缘安全 | 正确使用CDN 让你更好规避安全风险

阿里云Edge Plus

安全 CDN

客户服务高触达,零代码从短信/邮件跳转小程序客服

环信

Soul网关源码阅读(八)路由匹配初探

Java 源码阅读 网关

技术分享 | 漫谈音视频中的拥塞控制

拍乐云Pano

直播预告丨NLP领域的2020年大事记及2021展望

京东科技开发者

机器学习 AI nlp

数据倾斜?Spark 3.0 AQE专治各种不服

王知无

大数据 spark

京东架构师分享的 Redis学习笔记手抄版;

Java架构师迁哥

程序员生产环境-软件篇

ITCamel

程序员 效率工具 工作效率

基础不牢,地动山摇;自学进大厂的第18天!

Java架构师迁哥

阿里开源SpringSecurity:用户+案例+认证+框架

996小迁

Java 程序员 架构 面试 springsecurity

LeetCode题解:105. 从前序与中序遍历序列构造二叉树,递归+哈希表,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

永续合约APP系统软件开发

系统开发

AES128解密只能解一半的问题

李日盛

AES 问题定位

​Kubernetes资源清单篇:如何创建资源?​

xcbeyond

Kubernetes 28天写作 Kubernetes从入门到精通

观看辽篮比赛,思考团队管理——关于团队的灵魂拷问,你中了几个?

伯薇

团队管理 团队建设 团队 赋能 激励

Android面试(二)

我就感觉到快

实现数字经济和实体经济深度融合

CECBC

区块链

企业短信服务质量与用户体验如何监控?短信监测技术震撼来袭

博睿数据

短信 数据监测

基于Prometheus+Grafana打造企业级Flink监控系统

王知无

大数据 flink 监控

看懂2020年智能浪潮,我们从百度和谷歌的AI足迹出发

脑极体

HDFS中的常用压缩算法及区别

王知无

大数据 hdfs

你kin你擦!阿里终于肯把内部高并发编程高阶笔记开源出来了

Java架构之路

Java 程序员 架构 面试 编程语言

关于JDK15的简单理解

Java架构师迁哥

跨界融合,区块链推动实体经济提档升级

CECBC

人工智能 云计算 大数据

数字货币应用从C端走向B端 实践中这些难题仍需关注

CECBC

数字货币

【盘点2020】机房网络性能哪家强?年度冠军揭晓

博睿数据

机房 评测

大数据知识专栏 -MapReduce 自定义排序技术

小马哥

大数据 hadoop mapreduce 七日更

【我给面试官画饼】软件测试理论基础、质量保证常见面试题——会被面试官赶出来吗?

程序员阿沐

面试 软件测试 测试工程师 质量保证

从烟酒茶说系统化学习

张老蔫

28天写作

浪潮信息发布“源2.0”,千亿参数大模型开源可商用_生成式 AI_凌敏_InfoQ精选文章