硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

适配更多国产芯片,智谱 AI 推出第三代基座大模型 ChatGLM3

  • 2023-10-28
    北京
  • 本文字数:1105 字

    阅读完需:约 4 分钟

大小:593.52K时长:03:22
适配更多国产芯片,智谱AI推出第三代基座大模型ChatGLM3

2023 年 10 月 27 日,智谱AI于 2023 中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品,这也是智谱 AI 继推出千亿基座的对话模型 ChatGLM 和 ChatGLM2 之后的又一次重大突破。

 

据悉,此次推出的 ChatGLM3 采用了独创的多阶段增强预训练方法,使训练更为充分。评测显示,在 44 个中英文公开数据集测试中,ChatGLM3 在国内同尺寸模型中排名首位。智谱 AI CEO 张鹏在现场做了新品发布,并实时演示了最新上线的产品功能。

 

通过更丰富的训练数据和更优的训练方案,智谱 AI 推出的 ChatGLM3 性能更加强大。与 ChatGLM2 相比,MMLU 提升 36%、CEval 提升 33%、GSM8K 提升 179% 、BBH 提升 126%。

 

同时,ChatGLM3 瞄向 GPT-4V 本次实现了若干全新功能的迭代升级,包括多模态理解能力的 CogVLM-看图识语义,在 10 余个国际标准图文评测数据集上取得 SOTA;代码增强模块 Code Interpreter 根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务;网络搜索增强 WebGLM-接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接。ChatGLM3 的语义能力与逻辑能力得到了极大的增强。

 

ChatGLM3 还集成了自研的 AgentTuning 技术,激活了模型智能体能力,尤其在智能规划和执行方面,相比于 ChatGLM2 提升了 1000% ;开启了国产大模型原生支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。

 

此外,ChatGLM3 本次推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包括 vivo、小米、三星在内的多款手机以及车载平台,甚至支持移动平台上 CPU 芯片的推理,速度可达 20 tokens/s。精度方面 1.5B 和 3B 模型在公开 benchmark 上与 ChatGLM2-6B 模型性能接近。

 

自 2022 年初,智谱 AI 推出的 GLM 系列模型已支持在昇腾、神威超算、海光 DCU 架构上进行大规模预训练和推理。截至目前,智谱 AI 的产品已支持 10 余种国产硬件生态,包括昇腾、神威超算、海光 DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云等。

 

基于最新的高效动态推理和显存优化技术,ChatGLM3 当前的推理框架在相同硬件、模型条件下,相较于目前最佳的开源实现,包括伯克利大学推出的 vLLM 以及 Hugging Face TGI 的最新版本,推理速度提升了 2-3 倍,推理成本降低一倍,每千 tokens 仅 0.5 分,成本最低。

 

另外,随着 WebGLM 大模型能力的加入,智谱清言也具有了搜索增强能力,可以帮助用户整理出相关问题的网上文献或文章链接,并直接给出答案。此前已发布的 CogVLM 模型则提高了智谱清言的中文图文理解能力,取得了接近 GPT-4V 的图片理解能力,它可以回答各种类型的视觉问题,并且可以完成复杂的目标检测,并打上标签,完成自动数据标注。

2023-10-28 08:116665

评论

发布
暂无评论
发现更多内容

夸克APP端智能:文档关键点检测实践与应用

阿里巴巴终端技术

算法 移动开发 客户端 端智能

小程序下一破局点?钉钉小程序卡片,应用与平台的深度集成

阿里巴巴终端技术

小程序 ios android App 移动开发

低代码的自动化工作流靠谱吗?对企业有何帮助?

优秀

自动化 低代码

AI技术在漫画阅读体验上的应用

快看工程技术中心

深度学习 AI 漫画

云拨测助力节卡机器人 全面优化海外网站性能

阿里巴巴云原生

阿里云 云原生 拨测 成功案例

顺丰对供应链+区块链应用的思考与规划

CECBC

「绝密档案」“爆料”完整秒杀架构的设计到技术关键点的“情报信息”

码界西柚

后端 秒杀系统 秒杀架构 秒杀架构设计 引航计划

十大算法

wudaxue

百度智能云全面升级金融AI中台解决方案, 打造软硬一体AI开发全栈能力

百度大脑

人工智能 金融

内含(基础+进阶+高级+调优)的神仙级的阿里巴巴“MySQL”教程限时开源!

Java 架构 面试 程序人生 编程语言

列举出常见的Java面试题100+,我靠这个在十月拿到了阿里的offer

Java 程序员 编程语言

VSCode 中,TS 提示 ”无法找到 *.vue 声明文件“ 的解决方案

编程三昧

vscode Vue3 ts 9月日更

android逆向之root方式注入apk

轻口味

android 9月日更

想要入职阿里P8?至少是要啃完这本500页Java并发多线程源码笔记!

Java 架构 面试 程序人生 编程语言

大模型时代的AI之变与开发之根

脑极体

膜拜!不愧是阿里大牛总结的Java10W字面经,Github访问量已破百万

Java 程序员 架构 面试 计算机

当支付宝 App 遇见 AndroidX......

阿里巴巴终端技术

android App 移动端 AndroidX

GraphQL 快速入门【4】GraphQL 组件

码语者

Rest graphql

2022前端react高频面试题

buchila11

React

第6章-《Linux一学就会》- Centos8 用户管理

学神来啦

Linux 运维 linux学习 linux云计算

如何处理各种「陨石开发」的紧急要求?

LigaAI

敏捷开发

网站攻击到提权的全部过程

网络安全学海

黑客 网络安全 信息安全 WEB安全 漏洞分析

网络攻防学习笔记 Day150

穿过生命散发芬芳

9月日更 网络流量分析

太有用,Alibaba架构师十年心血熬成的435网络协议文档

程序员 编程语言 网络协议 TCP/IP

java 虚拟机 GC :G1配置参数

风翱

GC 9月日更

DCEP:真正的“无现金新时代”!现已完成技术对接!

CECBC

深入浅出Redis宝典,阿里架构师10年经验汇总,PDF免费分享

Java redis 架构

P8整理的OpenStack构架,希望能帮助到你

hanaper

秋招如何抱佛脚?2021最新大厂Java面试真题合集(附权威答案)

Java 架构 面试 程序人生 编程语言

2021年最新整理, C++ 学习资料,含C++ 11 / 14 / 17 / 20 / 23 新特性、入门教程、推荐书籍、优质文章、学习笔记、教学视频等

奔着腾讯去

c++

linux之登录式shell和非登录式shell

入门小站

Linux

适配更多国产芯片,智谱AI推出第三代基座大模型ChatGLM3_企业动态_褚杏娟_InfoQ精选文章