写点什么

适配更多国产芯片,智谱 AI 推出第三代基座大模型 ChatGLM3

  • 2023-10-28
    北京
  • 本文字数:1105 字

    阅读完需:约 4 分钟

大小:593.52K时长:03:22
适配更多国产芯片,智谱AI推出第三代基座大模型ChatGLM3

2023 年 10 月 27 日,智谱AI于 2023 中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品,这也是智谱 AI 继推出千亿基座的对话模型 ChatGLM 和 ChatGLM2 之后的又一次重大突破。

 

据悉,此次推出的 ChatGLM3 采用了独创的多阶段增强预训练方法,使训练更为充分。评测显示,在 44 个中英文公开数据集测试中,ChatGLM3 在国内同尺寸模型中排名首位。智谱 AI CEO 张鹏在现场做了新品发布,并实时演示了最新上线的产品功能。

 

通过更丰富的训练数据和更优的训练方案,智谱 AI 推出的 ChatGLM3 性能更加强大。与 ChatGLM2 相比,MMLU 提升 36%、CEval 提升 33%、GSM8K 提升 179% 、BBH 提升 126%。

 

同时,ChatGLM3 瞄向 GPT-4V 本次实现了若干全新功能的迭代升级,包括多模态理解能力的 CogVLM-看图识语义,在 10 余个国际标准图文评测数据集上取得 SOTA;代码增强模块 Code Interpreter 根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务;网络搜索增强 WebGLM-接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接。ChatGLM3 的语义能力与逻辑能力得到了极大的增强。

 

ChatGLM3 还集成了自研的 AgentTuning 技术,激活了模型智能体能力,尤其在智能规划和执行方面,相比于 ChatGLM2 提升了 1000% ;开启了国产大模型原生支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。

 

此外,ChatGLM3 本次推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包括 vivo、小米、三星在内的多款手机以及车载平台,甚至支持移动平台上 CPU 芯片的推理,速度可达 20 tokens/s。精度方面 1.5B 和 3B 模型在公开 benchmark 上与 ChatGLM2-6B 模型性能接近。

 

自 2022 年初,智谱 AI 推出的 GLM 系列模型已支持在昇腾、神威超算、海光 DCU 架构上进行大规模预训练和推理。截至目前,智谱 AI 的产品已支持 10 余种国产硬件生态,包括昇腾、神威超算、海光 DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云等。

 

基于最新的高效动态推理和显存优化技术,ChatGLM3 当前的推理框架在相同硬件、模型条件下,相较于目前最佳的开源实现,包括伯克利大学推出的 vLLM 以及 Hugging Face TGI 的最新版本,推理速度提升了 2-3 倍,推理成本降低一倍,每千 tokens 仅 0.5 分,成本最低。

 

另外,随着 WebGLM 大模型能力的加入,智谱清言也具有了搜索增强能力,可以帮助用户整理出相关问题的网上文献或文章链接,并直接给出答案。此前已发布的 CogVLM 模型则提高了智谱清言的中文图文理解能力,取得了接近 GPT-4V 的图片理解能力,它可以回答各种类型的视觉问题,并且可以完成复杂的目标检测,并打上标签,完成自动数据标注。

2023-10-28 08:116959

评论

发布
暂无评论
发现更多内容

《精益创业》摘要

孙苏勇

书摘 精益创业

一文吃透PHP进程信号处理

书旅

php Linux 信号

跟我一起基于Karma搭建一个测试环境(下)

Jack Q

大前端 测试框架 Karma

写代码爬取了某 Hub 资源,只为撸这个鉴黄平台!

程序员生活志

教程 Hub 资源

丐帮,少林,明教,武当!看看你数据分析的技能属于哪一派?

程序员生活志

Spring 为啥默认把bean设计成单例的?这篇讲的明明白白的

程序员生活志

影响音视频延迟的关键因素(一):流媒体系统

ZEGO即构

TCP udp RTC HLS RTMP

云原生架构的基石

soolaugust

Docker 架构 Kubernetes 容器 云原生

SpreadJS 纯前端表格控件应用案例:集成 Odoo提升企业ERP表格功能

葡萄城技术团队

开源 SpreadJS Odoo

四种主要的 IO 模型

一盐难进

Netty io 网络

学习的深度 & 深度的学习

北风

学习

Flink所需组件-1

小知识点

scala 大数据 flink 流计算

系统不可用总结

不在调上

错误的存储方案正吞噬你的成本

jinjin

有一种自我欺骗,叫只为孩子

zhoo299

随笔杂谈 家庭

吃透Laravel的Ioc容器

书旅

laravel 容器 ioc

为什么一旦自己创业了,很难再回到公司去坐班?

北柯

创业 互联网 创业心态 上班 上班族

高效程序员的45个习惯:敏捷开发修炼之道(3)

石云升

读书笔记 敏捷开发 无限游戏

nginx报错worker_connections are not enough

Java联盟

nginx

"工科生"的浪漫 百度大脑语言与知识技术峰会在七夕向你发出参会邀请

百度大脑

ST在keil下开发时候文件options配置的一些小技巧

良知犹存

嵌入式

“庆俞年”大战,真正受损的不是李国庆

北柯

创业 合伙人 创业者 互联网人 当当网

搭载十代酷睿i7处理器,这台ROG冰刃4新锐拥有媲美台式游戏电脑的性能

最新动态

一个虚拟世界里栽树的公司及其启示

郭华

技术 商业模式 电影

nginx 报错 accept4 () failed (24:Too many open files)

Java联盟

nginx

为啥PHP in_array(0,['a', 'b', 'c']) 返回为true?

架构精进之路

php 弱类型语言

大数据技术发展(二):Hadoop 技术生态圈的发展

cristal

Java 大数据 hadoop hadoop3

2w字 + 40张图带你参透并发编程!

苹果看辽宁体育

Java 后端 并发

Python3 for ... else ...陷阱

wangkx

Python Python PEP

大厂面试必读,JAVA进阶神书《深入理解Java虚拟机》第三版更新内容全曝光!

华章IT

JVM 虚拟机 周志明 Java虚拟机 jvm调优

草脸识别,AI泡沫还是皇冠明珠?

郭华

人工智能 AI 商业 解决方案

适配更多国产芯片,智谱AI推出第三代基座大模型ChatGLM3_企业动态_褚杏娟_InfoQ精选文章