写点什么

适配更多国产芯片,智谱 AI 推出第三代基座大模型 ChatGLM3

  • 2023-10-28
    北京
  • 本文字数:1105 字

    阅读完需:约 4 分钟

大小:593.52K时长:03:22
适配更多国产芯片,智谱AI推出第三代基座大模型ChatGLM3

2023 年 10 月 27 日,智谱AI于 2023 中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品,这也是智谱 AI 继推出千亿基座的对话模型 ChatGLM 和 ChatGLM2 之后的又一次重大突破。

 

据悉,此次推出的 ChatGLM3 采用了独创的多阶段增强预训练方法,使训练更为充分。评测显示,在 44 个中英文公开数据集测试中,ChatGLM3 在国内同尺寸模型中排名首位。智谱 AI CEO 张鹏在现场做了新品发布,并实时演示了最新上线的产品功能。

 

通过更丰富的训练数据和更优的训练方案,智谱 AI 推出的 ChatGLM3 性能更加强大。与 ChatGLM2 相比,MMLU 提升 36%、CEval 提升 33%、GSM8K 提升 179% 、BBH 提升 126%。

 

同时,ChatGLM3 瞄向 GPT-4V 本次实现了若干全新功能的迭代升级,包括多模态理解能力的 CogVLM-看图识语义,在 10 余个国际标准图文评测数据集上取得 SOTA;代码增强模块 Code Interpreter 根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务;网络搜索增强 WebGLM-接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接。ChatGLM3 的语义能力与逻辑能力得到了极大的增强。

 

ChatGLM3 还集成了自研的 AgentTuning 技术,激活了模型智能体能力,尤其在智能规划和执行方面,相比于 ChatGLM2 提升了 1000% ;开启了国产大模型原生支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。

 

此外,ChatGLM3 本次推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包括 vivo、小米、三星在内的多款手机以及车载平台,甚至支持移动平台上 CPU 芯片的推理,速度可达 20 tokens/s。精度方面 1.5B 和 3B 模型在公开 benchmark 上与 ChatGLM2-6B 模型性能接近。

 

自 2022 年初,智谱 AI 推出的 GLM 系列模型已支持在昇腾、神威超算、海光 DCU 架构上进行大规模预训练和推理。截至目前,智谱 AI 的产品已支持 10 余种国产硬件生态,包括昇腾、神威超算、海光 DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云等。

 

基于最新的高效动态推理和显存优化技术,ChatGLM3 当前的推理框架在相同硬件、模型条件下,相较于目前最佳的开源实现,包括伯克利大学推出的 vLLM 以及 Hugging Face TGI 的最新版本,推理速度提升了 2-3 倍,推理成本降低一倍,每千 tokens 仅 0.5 分,成本最低。

 

另外,随着 WebGLM 大模型能力的加入,智谱清言也具有了搜索增强能力,可以帮助用户整理出相关问题的网上文献或文章链接,并直接给出答案。此前已发布的 CogVLM 模型则提高了智谱清言的中文图文理解能力,取得了接近 GPT-4V 的图片理解能力,它可以回答各种类型的视觉问题,并且可以完成复杂的目标检测,并打上标签,完成自动数据标注。

2023-10-28 08:116205

评论

发布
暂无评论
发现更多内容

欲速则不达,欲达则欲速!,mysql主从复制原理两主一从ID

Java 程序员 后端

涨姿势,Java中New一个对象是个怎么样的过程?,linux操作系统实用教程教师用书

Java 程序员 后端

源码解析 HashMap 的线程安全问题,mysql索引左前缀原理

Java 程序员 后端

源码解析BeanUtils,Java开发还不会这些

Java 程序员 后端

沉寂唯品会3年,毅然辞职冲刺阿里,我是怎么备战金三银四的

Java 程序员 后端

教学改革拆除“骨鲠”,产教融合的“一鱼多吃”创新之路

脑极体

测试用例的设计方法及案例,java技术框架

Java 程序员 后端

消息队列面试题及答案,大V推荐

Java 程序员 后端

深入浅出!带你重学Java—ArrayList,mongodb的存储原理

Java 程序员 后端

深入解析java虚拟机:垃圾回收,最大并发标记清除垃圾回收器

Java 程序员 后端

死磕Spring之AOP篇 - Spring AOP常见面试题,java高级开发工程师简历

Java 程序员 后端

每天一遍、阿里相见,Github爆火的spring高级源码解析免费下载

Java 程序员 后端

毕业两年,工作三年Java程序员的一点点体会与建议,java面试问项目流程

Java 程序员 后端

深入P8级别JAVA底层知识:你知道阿里P8需要掌握哪些技术吗?

Java 程序员 后端

每日一学:这个-RabbitMQ-必会-Routing路由模式,你学会了吗

Java 程序员 后端

炸裂!这份阿里P8大佬手写“Java核心技能精选,java笔试面试宝典

Java 程序员 后端

毕业三年,从小公司到大厂,先后四面阿里,沈剑架构师训练营

Java 程序员 后端

浅析Mysql索引数据结构演变,让你一看就懂(1),意外收获字节跳动内部资料

Java 程序员 后端

深入浅出!全面剖析Java反射-Reflection,java项目开发实战入门电子书百度云

Java 程序员 后端

清华大牛纯手写2021年最新JVM调优实战手册,看完让你精通JVM调优

Java 程序员 后端

深入理解Java内存模型,小白也能看得懂!,限时发布

Java 程序员 后端

毕业两年面试阿里成功,月薪36k,分享一下我的经历,锁机制(本地锁+分布式锁)超全分析

Java 程序员 后端

泪目!跳槽太不容易,蚂蚁金服三轮面试,linux高可用集群架构毕业设计

Java 程序员 后端

浅析Mysql索引数据结构演变,让你一看就懂,java业务场景面试题

Java 程序员 后端

深入理解Java虚拟机之类加载机制篇,秋招java后端面试

Java 程序员 后端

元宇宙将如何影响我们的投资、就业和生活方式?

CECBC

元宇宙到底是个啥?

石云升

元宇宙 10月月更

毕业就想进大厂?啃完这篇阿里大神整理的Kafka神仙文档,从此面试底气十足

Java 程序员 后端

消息疯狂堆积!RocketMQ出Bug了?,rabbitmq分布式事务原理

Java 程序员 后端

淘系,60W年薪大牛!新肝出一份,细说JVM内存模型

Java 程序员 后端

深入理解静态代理与JDK动态代理,java编程技术基础周绍斌

Java 程序员 后端

适配更多国产芯片,智谱AI推出第三代基座大模型ChatGLM3_企业动态_褚杏娟_InfoQ精选文章