NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

国产大模型研究论文入选 AI 顶会,智谱 AI 详解千亿基座问答模型 GLM-130B,其在准确性指标上与 GPT-3 相当

  • 2023-05-05
    北京
  • 本文字数:2090 字

    阅读完需:约 7 分钟

国产大模型研究论文入选AI顶会,智谱AI详解千亿基座问答模型 GLM-130B,其在准确性指标上与 GPT-3 相当

4 月 30 日-5 月 4 日,Google Scholar 评分计算机领域最高的人工智能顶级国际会议 ICLR 2023 (International Conference on Learning Representations)举行。同期互联网领域顶级国际会议 TheWebConf (原 WWW) 2023 也在美国奥斯丁召开。


智谱 AI 和清华 KEG 联合研究预训练大模型以及图神经网络,多篇文章在大会上发表。据悉,智谱 AI 联合清华在 ICLR 2023 上发表的文章主要介绍了千亿基座模型 GLM-130B。


它是不同于 BERT、GPT-3 以及 T5 的架构,是一个包含多目标函数的自回归预训练模型。该模型有一些独特的优势:


  • 双语: 同时支持中文和英文。

  •  高精度(英文): 在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM-176B。

  • 高精度(中文): 在 7 个零样本 CLUE 数据集和 5 个零样本 FewCLUE 数据集上明显优于 ERNIE TITAN 3.0 260B 和 YUAN 1.0-245B。

  • 快速推理: 首个实现 INT4 量化的千亿模型,支持用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行快速且基本无损推理。

  • 可复现性: 所有结果(超过 30 个任务)均可通过我们的开源代码和模型参数复现。

  •  跨平台: 支持在国产的海光 DCU、华为昇腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。



去年 11 月,斯坦福大学大模型中心对全球 30 个主流大模型进行了全方位的评测,GLM-130B 是亚洲唯一入选的大模型。在与 OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中,评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平,鲁棒性和校准误差在所有千亿规模的基座大模型(作为公平对比,只对比无指令提示微调模型)中表现不错。目前,该模型收到 69 个国家 1000 多个研究机构(截至 2023 年 5 月 1 日)的下载使用需求。




据悉,今年来,智谱 AI 在千亿基座模型 GLM-130B 中注入了代码预训练,通过有监督微调(Supervised Fine-Tuning)等技术实现人类意图对齐,发布了 ChatGLM。类似 ChatGPT,这是一个具有问答和对话功能的千亿中英语言模型, 并针对中文进行了优化。


与此同时,智谱 AI 还开源了最新的中英双语对话 GLM 模型: ChatGLM-6B,结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。经过约 1T 标识符的中英双语训练,辅以监督微调、 反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了用户部署的门槛,并且已经能生成相当符合人类偏好的回答。目前, ChatGLM-6B 模型全球下载超过 100 万。


在 WWW 2023 上,智谱 AI 联合清华发表了关于图神经网络 GNN 工具平台的论文 CogDL。


CogDL 是一个广泛的图神经网络工具包,它为现实世界的问题,尤其是那些涉及大规模数据的问题提供了许多有效和高效的解决方案。该工具包通过整合多种不同的下游任务,同时搭配合适的评估方式,使得研究者和使用者可以方便、快速地运行出各种基线模型的结果,进而将更多精力投入研发新模型的工作之中。


CogDL 最特别的一点在于它以任务(task)为导向来集成所有算法,将每一个算法分配在一个或多个任务下,从而构建了 “数据处理-模型搭建-模型训练和验证” 一条龙的实现。


CogDL 的图表示学习算法可以分为两类:一类是基于图神经网络的算法,另一类是基于 Skip-gram 或矩阵分解的算法。前者包括 GCN、GAT、GraphSAGE 和 DiffPool 等,以及适用于异构图的 RGCN、GATNE 等;后者则包括 Deepwalk、Node2Vec、HOPE 和 NetMF 等,以及用于图分类的 DGK、graph2vec 等算法。大体上,CogDL 将已有图表示学习算法划分为以下 6 项任务:


  • 有监督节点分类任务(node classification):包括 GCN、GAT、GraphSAGE、MixHop 和 GRAND 等;

  • 无监督节点分类任务(unsupervised node classification):包括 DGI、GraphSAGE(无监督实现),以及 Deepwalk、Node2vec、ProNE 等;

  • 有监督图分类任务(graph classification):包括 GIN、DiffPool、SortPool 等;

  •  无监督图分类任务(unsupervised graph classification):包括 InfoGraph、DGK、Graph2Vec 等;

  •  链接预测任务(link prediction):包括 RGCN、CompGCN、GATNE 等;

  • 异构节点分类(multiplex node classification):包括 GTN、HAN、Metapath2vec 等。



CogDL 还包括图上的预训练模型 GCC,GCC 主要利用图的结构信息来预训练图神经网络,从而使得该网络可以迁移到其他数据集上,来取得较好的节点分类和图分类的效果。



那么,研究者和使用者可以利用 CogDL 做些什么?主要有三点:跟进 SOTA、复现实验,以及自定义模型和数据。


跟进 SOTA。CogDL 跟进最新发布的算法,包含不同任务下 SOTA 的实现,同时建立了不同任务下所有模型的 leaderboard(排行榜),研究人员和开发人员可以通过 leaderboard 比较不同算法的效果。


复现实验。论文模型的可复现性是非常重要的。CogDL 通过实现不同论文的模型也是对模型可复现性的一个检验。


自定义模型和数据。“数据-模型-训练”三部分在 CogDL 中是独立的,研究者和使用者可以自定义其中任何一部分,并复用其他部分,从而提高开发效率。


CogDL 非常简单易用,下面给出了一个调用 CogDL 的例子,可以看出 CogDL 的代码比如 PyG 和 DGL 简单很多。



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-05-05 18:384163
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.5 次阅读, 收获喜欢 1968 次。

关注

评论

发布
暂无评论
发现更多内容

阿里云架构师马颂:云上高性能计算助力基因测序

阿里云弹性计算

高性能计算 EHPC 基因测序

Docker 安装 MySQL8.0

宁在春

MySQL Docker 镜像 7月月更

使用 Gorilla Mux 和 CockroachDB 编写可维护 RESTful API

宇宙之一粟

Go 语言 CockroachDB 7月月更

镍氢电池的特性和使用方法(FDK镍氢电池充电机制)

不脱发的程序猿

嵌入式 汽车电子 镍氢电池 镍氢电池充电逻辑 FDK镍氢电池

语音聊天源码——语音聊天源码开发设计搭建

开源直播系统源码

软件开发 直播系统源码 开源源码 语音聊天源码 语音社交软件

深入Ceph原理包含核心算法Crush说明和通信机制原理(五)

Lansonli

云原生 Ceph 7月月更

激情的开头,大意的结局,Python反爬加更,好友求助米哈游的API,给他安排上

梦想橡皮擦

Python 爬虫 7月月更

LeetCode-111. 二叉树的最小深度(java)

bug菌

Leet Code 7月月更

jQuery(三)

Jason199

jquery js 7月月更

玩转Liunx系统,看这篇文章就够了(二)

Java学术趴

7月月更

【古月21讲】ROS入门系列(2)——发布者Publisher、订阅者Subscriber的编程实现+自定义话题消息编程实现

秃头小苏

ROS 7月月更

zookeeper-zookeeper常用命令

zarmnosaj

7月月更

从 0 到 1 开展软件测试

声网

测试 生态专栏

mysql进阶(三)游标简易知识点汇总

No Silver Bullet

MySQL 数据库 游标 7月月更

1800字带您了解视频会议、视频聊天底层技术:WebRTC 网页实时通信

wljslmz

WebRTC 音视频技术 视频技术 7月月更

如何控制css鼠标样式以及扩大鼠标点击区域

南极一块修炼千年的大冰块

7月月更

spark调优(六):大家好才是真的好——广播变量

怀瑾握瑜的嘉与嘉

spark 7月月更

【答疑解惑】 裁员浪潮中,N+1 到底指什么?

面试官问

互联网裁员 N+1

LaTex笔记(Windowns)

乌龟哥哥

7月月更

ArkUI常见问题汇总【系列3】

坚果

HarmonyOS Open Harmony 7月月更

查找——二叉排序树(一)

乔乔

7月月更

iOS中的Block(初步认识)

NewBoy

ios 前端 移动端 iOS 知识体系 7月月更

从0开始的 TypeScriptの十四:内置工具类型

空城机

typescript 7月月更

谈谈JavaScript的作用域及作用域链

南极一块修炼千年的大冰块

7月月更

Linux下QT配合OpenCV完成图像处理(实现基本的人脸检测)

DS小龙哥

7月月更

【Debug】VS EXE运行“应用程序无法正常启动(0xc000007b)”

柒号华仔

debug 7月月更

list的使用方式

小肉球

qt 7月月更

MFC|自绘CStatic刷新不及时问题

中国好公民st

c++ 7月月更

即时通信的应用小实例——扫码签到小系统

为自己带盐

即时通信 7月月更

SVN使用:更新代码不成功导致SVN被锁定的解决方法

三掌柜

7月月更

QT | VS2017 + Qt5.14.2环境搭建

YOLO.

环境搭建 vs Qt Creator 7月月更

国产大模型研究论文入选AI顶会,智谱AI详解千亿基座问答模型 GLM-130B,其在准确性指标上与 GPT-3 相当_AI&大模型_刘燕_InfoQ精选文章