教年轻 AIoT 创业者如何从 0 到 1 实现AIoT 创业项目 了解详情
写点什么

FATE-LLM 新版本发布,支持中文大语言模型 ChatGLM-6B 联邦化训练

  • 2023-06-06
    北京
  • 本文字数:1886 字

    阅读完需:约 6 分钟

FATE-LLM新版本发布,支持中文大语言模型ChatGLM-6B联邦化训练

当前,AI 大模型已成为科技创新和数字经济领域的热点,其高速进程中面临的诸多问题也引发了业内关注。FATE 开源社区技术指导委员会主席杨强教授指出:“即将消耗殆尽的公域数据,日趋高涨的隐私安全保护需求,以及众多异构小模型的整合需求,已成为 AI 大模型发展之路上亟待突破的瓶颈。而联邦大模型正是解决这些问题的有效路径。”在此背景下,FATE 社区开源了 FATE-LLM 联邦大模型功能模块,以联邦学习+大模型的技术解决方案破局数据隐私保护与数据不足等问题,以应对行业发展的新挑战。


近期,联邦大模型开源平台 FATE-LLM 最新版发布,在横向联邦场景支持 ChatGLM-6B 中文语言大模型。集成 GLM 的 FATE-LLM 将会为国内用户提供更好的中文大模型应用落地选择。


GLM 系列大模型由清华大学和智谱 AI 联合研发,其中 ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。开源两个月以来,ChatGLM-6B 在全球最大开源软件平台 GitHub 上获得超过 26 万星,超过斯坦福同期模型的关注度和好评度,全球下载量超过 200 万,并连续两周登上全球最大开源大模型平台 Hugging Face 大模型趋势榜榜首。


此次更新的 FATE-LLM v1.1 版本在横向联邦场景支持 Adapter,Prompt 这类高效聚合方法,可以显著提升联邦大模型训练效率,其中参数微调方法支持 Lora 以及 P-Tuning V2 。而在框架层,FATE 实现对 DeepSpeed 的集成,使得 FATE-LLM 支持多机多卡训练,支持分布式 GPU 集群资源调度和管理,支持数据、模型参数等不同并行化加速方法。用户只需要任务提交阶段直接增加配置即可享受到多机多卡的加速能力。


项目链接https://github.com/FederatedAI/FATE-LLM/releases/tag/v1.1.0

FATE-LLM v1.1 功能介绍

亮点概述

1)集成业界开源的主流中文语言大模型 ChatGLM-6B,支持高效的参数微调机制 Lora、P-Tuning V2 等方法,提升联邦训练的通信效率和训练效率;

2)FATE 实现对 DeepSpeed 框架集成,使得 FATE 具备多机多卡联邦大模型加速训练能力:支持分布式 GPU 集群资源调度和管理;支持数据、模型参数等不同并行化加速方法。

功能一览

1)ChatGLM-6B 联邦化支持,并支持 LoRa、P-Tuning V2 高效微调方案;

2)FATE 多机多卡联邦大模型训练能力支持,在任务提交阶段增加相关配置即可使用数据、模型等不同阶段的训练加速能力,与用户模型训练代码解耦;

3)FATE 支持分布式 GPU 集群资源管理功能;

4)支持使用 transformers 库的 data collator 类,可以更灵活地处理训练输入数据;

5)支持只保存可训练参数,降低训练阶段 checkpoints 保存的硬盘占用,方便模型拷贝使用。

实验数据

1)高效参数微调机制的参数量及其训练参数占比


2)场景及数据、以及配置

  • 联邦场景:横向联邦,两个参与;

  • 应用场景:两个参与方各持有部分数据,数据格式:<广告关键字,广告宣传语>,希望模型可以根据输入的广告关键字去自动生成广告宣传语,通过联邦建模去提升广告生成词的效果。


下面给出效果示例:

  • 数据集:AdvertiseGen,可参考 https://aclanthology.org/D19-1321.pdf,为广告生成数据集;

  • 训练数据随机切分,其中 client-1 数据量为 57478,client-2 数据量为 57121

  • 环境:局域网环境,client-1 和 client-2 机器配置完全一致,单个 client 使用 2 台机器,每台机器有 4 张 V100 32G 资源;

  • 配置:DeepSpeed: stage=2,batch_size_per_device=4;

  • 数据集的提问(content)及回答(summary)两列 tokenize 后,token_ids 长度超过 64 的会截断。

3)训练效果:


开源共建,是助推联邦大模型快速发展的不竭动力

未来,支持中文大语言模型 ChatGLM-6B 联邦化训练的 FATE-LLM 将通过联合多家公司和组织,充分利用分散数据,融合联邦学习和 AIGC 相关技术,实现异构数据分布式安全训练。其中针对中文方面的优化,将为金融、教育、医疗等领域的应用带来更强大的支持,例如人工智能助手、智能问答、自然语言处理等场景将会得到进一步的效果提升。


FATE-LLM 模块将持续迭代,未来将持续解决训练、微调和使用推理阶段的隐私保护问题,并坚持推出后续版本。联邦大模型将大模型与隐私计算核心技术手段融合,使大模型的“野蛮生长”转向更加安全可靠的发展赛道,在提升 AI 通用性的同时不违背监管与伦理的要求,推进 AI 技术高质量发展。

清华大学教授唐杰表示:“作为科研人员,我们希望在开展大模型技术研究与应用落地的同时,也进一步降低人工智能的使用门槛,实现技术普惠,为行业良性发展做出一些贡献。”


饮其流者怀其源。开源不仅是一种技术选择,更是一种分享态度与沟通方式。开源平台和开源生态将助推大模型的快速迭代与落地应用。

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2023-06-06 16:233808
用户头像
李冬梅 加V:busulishang4668

发布了 651 篇内容, 共 250.4 次阅读, 收获喜欢 813 次。

关注

评论

发布
暂无评论
发现更多内容

【透镜系列】看穿 _ 触摸事件分发 _,android界面开发框架

android 程序员 移动开发

一位Android程序员入坑Flutter后整理出一份超详细的学习笔记

android 程序员 移动开发

一篇通俗易懂的Android视图系统设计与实现,精通android网络开发pdf

android 程序员 移动开发

【设计思想解读开源框架】热修复设计-,卑微打工人

android 程序员 移动开发

华为云·核心伙伴开发者训练营第七期开营,共赴产业云美好明天!

华为云开发者联盟

华为云 鲁班会

一封给Android开发者 UI 自动化测试上手指南,前方高能

android 程序员 移动开发

一个view事件分发,面试官6连问直击灵魂,我被虐的体无完肤

android 程序员 移动开发

一位普通Android程序员呕心沥血八次大小厂的面试复盘总结,收藏一波扩展知识体系!

android 程序员 移动开发

一文带你搞懂Android的-Binder-机制,flutterandroid最低版本

android 程序员 移动开发

【译】使用Kotlin从零开始写一个现代Android-项目-Part1(1)

android 程序员 移动开发

【译】使用Kotlin从零开始写一个现代Android-项目-Part1

android 程序员 移动开发

Cube 技术解读 | Cube 卡片技术栈详解

阿里巴巴终端技术

支付宝 客户端开发 卡片服务 cube 动态化

一文了解AndroidStudio3-4的全部更新,androidapp开发从入门到精通

android 程序员 移动开发

一篇文章,全面总结2020最新整理-Android-大厂高频面试知识点

android 程序员 移动开发

一篇看懂Android与Flutter之间的通信,最新Android开发面试解答

android 程序员 移动开发

【译】彻底理解 Android 中的阴影,三年经验Android开发面经总结

android 程序员 移动开发

一个中专生的逆袭之旅(如何做到收到阿里、腾讯、滴滴等面试邀请)

android 程序员 移动开发

一个非常好用的页面引导工具guideView,html5移动开发框架

android 程序员 移动开发

一种清晰, 便于扩展android项目架构方案,kotlin编程

android 程序员 移动开发

一篇文章让你彻底了解三次握手和四次挥手,轻松拿下offer

android 程序员 移动开发

【阿里P8大牛教你Android入门之路(java篇,移动端开发工程师转型

android 程序员 移动开发

【面试必会】全网最具深度的三次握手,腾讯Android开发面试记录

android 程序员 移动开发

恒源云(GpuShare)_未闻Prompt名(论文学习笔记)

恒源云

深度学习

一场赛跑引起的并发知识,flutterrow换行

android 程序员 移动开发

一款简单的消息防抖框架,安卓开发权威指南

android 程序员 移动开发

【面试准备】JavaWeb部分,android webview

android 程序员 移动开发

一个8年Android 开发想转后端,还来得及嘛?,android开发菜鸟教程

android 程序员 移动开发

一个Android开发6年程序员的年终面试总结,2021无畏艰难险阻,迎风潇洒前行

android 程序员 移动开发

【译】彻底理解 Android 中的阴影(1),apk优化签名

android 程序员 移动开发

【议程公布】2021年MongoDB中文社区南京技术沙龙

MongoDB中文社区

mongodb

一种有效管控APP隐私权限的解决方案,Android400道面试题通关宝典助你进大厂

android 程序员 移动开发

  • 扫码添加小助手
    领取最新资料包
FATE-LLM新版本发布,支持中文大语言模型ChatGLM-6B联邦化训练_文化 & 方法_李冬梅_InfoQ精选文章