50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

适配更多国产芯片,智谱 AI 推出第三代基座大模型 ChatGLM3

  • 2023-10-28
    北京
  • 本文字数:1105 字

    阅读完需:约 4 分钟

大小:593.52K时长:03:22
适配更多国产芯片,智谱AI推出第三代基座大模型ChatGLM3

2023 年 10 月 27 日,智谱AI于 2023 中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品,这也是智谱 AI 继推出千亿基座的对话模型 ChatGLM 和 ChatGLM2 之后的又一次重大突破。

 

据悉,此次推出的 ChatGLM3 采用了独创的多阶段增强预训练方法,使训练更为充分。评测显示,在 44 个中英文公开数据集测试中,ChatGLM3 在国内同尺寸模型中排名首位。智谱 AI CEO 张鹏在现场做了新品发布,并实时演示了最新上线的产品功能。

 

通过更丰富的训练数据和更优的训练方案,智谱 AI 推出的 ChatGLM3 性能更加强大。与 ChatGLM2 相比,MMLU 提升 36%、CEval 提升 33%、GSM8K 提升 179% 、BBH 提升 126%。

 

同时,ChatGLM3 瞄向 GPT-4V 本次实现了若干全新功能的迭代升级,包括多模态理解能力的 CogVLM-看图识语义,在 10 余个国际标准图文评测数据集上取得 SOTA;代码增强模块 Code Interpreter 根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务;网络搜索增强 WebGLM-接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接。ChatGLM3 的语义能力与逻辑能力得到了极大的增强。

 

ChatGLM3 还集成了自研的 AgentTuning 技术,激活了模型智能体能力,尤其在智能规划和执行方面,相比于 ChatGLM2 提升了 1000% ;开启了国产大模型原生支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。

 

此外,ChatGLM3 本次推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包括 vivo、小米、三星在内的多款手机以及车载平台,甚至支持移动平台上 CPU 芯片的推理,速度可达 20 tokens/s。精度方面 1.5B 和 3B 模型在公开 benchmark 上与 ChatGLM2-6B 模型性能接近。

 

自 2022 年初,智谱 AI 推出的 GLM 系列模型已支持在昇腾、神威超算、海光 DCU 架构上进行大规模预训练和推理。截至目前,智谱 AI 的产品已支持 10 余种国产硬件生态,包括昇腾、神威超算、海光 DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云等。

 

基于最新的高效动态推理和显存优化技术,ChatGLM3 当前的推理框架在相同硬件、模型条件下,相较于目前最佳的开源实现,包括伯克利大学推出的 vLLM 以及 Hugging Face TGI 的最新版本,推理速度提升了 2-3 倍,推理成本降低一倍,每千 tokens 仅 0.5 分,成本最低。

 

另外,随着 WebGLM 大模型能力的加入,智谱清言也具有了搜索增强能力,可以帮助用户整理出相关问题的网上文献或文章链接,并直接给出答案。此前已发布的 CogVLM 模型则提高了智谱清言的中文图文理解能力,取得了接近 GPT-4V 的图片理解能力,它可以回答各种类型的视觉问题,并且可以完成复杂的目标检测,并打上标签,完成自动数据标注。

2023-10-28 08:116718

评论

发布
暂无评论
发现更多内容

Keepalived+HAProxy 搭建高可用负载均衡

CTO技术共享

Databend 源码阅读系列(二):Query server 启动,Session 管理及请求处理

Databend

query query分析 大数据 开源 #开源 databend

直播预告 | Homebrew 作者 Max Howell:如何打造杰出的开发者工具

玩转Devop和研发效能DevStream/DevLake

#开源

软件测试 | 测试开发 | 白盒测试方法论

测吧(北京)科技有限公司

白盒测试

融云超级群的「同城社交平台」应用实践

融云 RongCloud

社交网络

defi质押挖矿dapp系统开发智能合约部署详解

开发微hkkf5566

MobTech短信验证 Android端快速集成

MobTech袤博科技

android android-studio 短信验证

SRE 运维体系 CTO技术共享

CTO技术共享

从西方舶来品到中国智造,美的R6强势引领嵌入式厨电风向标

极客天地

软件测试 | 测试开发 | App测试时常用的adb命令你都掌握了哪些呢?

测吧(北京)科技有限公司

app测试

面试官:你知道MySQL和Linux操作系统是如何改进LRU算法的吗?

程序员小毕

Java MySQL 程序员 面试 LRU

华为云发布业界首个《云原生数据库白皮书》 重新定义数据新范式

科技怪咖

教育部“产学合作协同育人”项目华为云GaussDB项目入选名单公布

sofiya

怎么选择Java培训班?

小谷哥

百万粉丝养成记:写作4步法,解决文案创作的80%问题!

图灵社区

写作 脑科学

软件测试 | 测试开发 | App常见bug解析

测吧(北京)科技有限公司

bug

设计模式的艺术 第五章工厂方法设计模式练习(设计一个程序来读取各种不同类型的图片格式,针对每种格式都设计一个图片读取器)

代廉洁

设计模式的艺术

华为云发布《云原生2.0架构白皮书》,GaussDB技术再升级

sofiya

中大型现代服务行业的ERP,Telework现代服务中台

sofiya

DevOps技术产品链

CTO技术共享

4步教你做一个煤气安全提示神器

华为云开发者联盟

云计算 后端 物联网 IoT

官宣!华为云GaussDB两大数据库通过中国信通院多项评测

科技怪咖

JPEX 围绕世界杯打造“平台 + 运动”新生态,为 JPC 深度赋能

股市老人

TDesign「issue一夏·疯狂的代码&设计」主题赛事火热进行中

TDesign

腾讯 前端

【Metaverse系列三】虚幻引擎的故事

ThingJS数字孪生引擎

元宇宙 虚幻引擎

百万粉丝养成记:写作4步法,解决文案创作的80%问题!

图灵教育

写作 脑科学

基于KubeEdge的边缘节点分组管理设计与实现

华为云开发者联盟

云计算 云原生 后端

Java培训的主要内容是什么?

小谷哥

华为云GaussDB(for Redis)揭秘:谁说Redis不能存大key

科技怪咖

数字藏品系统开发:NFT系统开发

开源直播系统源码

数字藏品 数字藏品软件开发 数字藏品源码出售 数字藏品开发

使用华为云GaussDB(for Redis)实现二级索引

科技怪咖

适配更多国产芯片,智谱AI推出第三代基座大模型ChatGLM3_企业动态_褚杏娟_InfoQ精选文章