【ArchSummit架构师峰会】基于大模型的基础框架、中台、应用层等专题全覆盖 >>> 了解详情
写点什么

又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源

  • 2023-04-24
    北京
  • 本文字数:1011 字

    阅读完需:约 3 分钟

又一国产大模型来了,超对称联合复旦大学发布120亿参数语言模型BBT-2, 已开源

InfoQ 获悉,近日,超对称联合复旦大学发布并开源 120 亿参数语言模型 BBT-2。

 

2022 年 5 月超对称技术公司发布了大语言模型 Big Bang Transformer【乾元】的第一版 BBT-1,10 亿参数预训练语言模型,在中文金融语料上训练而成。近期,超对称公司再推出 BBT-2,120 亿参数的通用大语言模型,并在 BBT-2 的基础上训出代码,金融,文生图等专业模型。

 

据悉,Big Bang Transformer【乾元】12B 大模型的开发基于英伟达的 DGX 算力,超对称公司主导大模型的预训练,并联合复旦大学知识工场实验室完成指令微调和评测工作。

 

超对称技术公司将发布基于 BBT-2 的系列模型(模型 Index 见于https://bbt.ssymmetry.com

 

  • BBT-2-12B-Text:120 亿参数的中文基础模型

  • BBT-2.5-13B-Text: 130 亿参数的中文+英文双语基础模型

  • BBT-2-12B-TC-001-SFT  经过指令微调的代码模型,可以进行对话

  • BBT-2-12B-TF-001 在 120 亿模型上训练的金融模型,用于解决金融领域任务

  • BBT-2-12B-Fig:文生图模型

  • BBT-2-12B-Science 科学论文模型

 

另外,通过与 UCloud 在开源方面的合作,超对称还将 3 个大模型开源到官网、Github 和 UCloud,后续用户可直接在 UCloud 官方平台通过 GPU 云主机的行业镜像或算力平台直接开箱使用这些模型:

 

  • BBT-1-0.2B:2 亿参数金融模型,包括三个不同预训练方式进行训练的模型, 训了 600 亿 Tokens:

 

(1)BBT-1-0.2B-001:2 亿参数,金融模型,T5 Decoder+Encoder 架构 

(2)BBT-1-0.2B-002: 2 亿参数,金融模型,T5+GPT 

(3)BBT-1-0.2B-003: 2 亿参数,金融模型,T5+UL2

 

  • BBT-1-1B:10 亿参数金融模型,T5 Encoder+Decoder 架构,使用金融中文语料库 1000 亿 tokens 进行预训练,包含社交媒体,财经新闻,券商研报,公司公告财报等数据

 

  • BBT-2-12B-Text:120 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿 token 预训练,模型性能还有较大提升空间,开发者可在通用模型上继续训练或进行下游任务微调

 

  • BBT-2.5-13B-Text: 130 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿中文+英文 tokens 预训

 

开源下载链接:

 

模型:

 

 

语料库,开源了接近 1000 亿 tokens 的预训练语料,包括通用语料和金融语料,详见:

 

 

  • 评测数据集,开源了 8 个中文金融大模型的评测数据集,详见:

https://bbt.ssymmetry.com/evaluation.html

 

论文链接:

 

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-04-24 10:004266
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 496.7 次阅读, 收获喜欢 1968 次。

关注

评论

发布
暂无评论
发现更多内容

遇见低码:在价值中审视

华为云开发者联盟

ide 低代码 应用 开发语言 低成本

如何构建 Spring Boot 12 因素应用

码语者

Sprint Boot

前端人员必会工具-apipost两分钟上手(2分钟玩转apipost)

Proud lion

大前端 测试 后端 Postman 开发工具

WEB常用HTML颜色代码表

入门小站

工具

Windows Server 内存高排查

耳东@Erdong

windows 内存 Windows Server 8月日更 rammap

docker入门:elk环境安装记录

小鲍侃java

8月日更

springBoot中redis的自动装配

Rubble

8月日更

混合云时代来临,你的存储ready了吗?

焱融科技

云计算 分布式 高性能 云存储 混合云

微信业务架构图 & 学生管理系统

I see you

摸鱼小技巧之IDEA调试篇一~

4ye

Java debug 后端 IDEA 8月日更

在openGauss上做开发?这个大赛拿出30万寻找开源的你

华为云开发者联盟

数据库 开源 信创 opengauss 鲲鹏

apipost--接口流程化测试

与风逐梦

软件测试 接口测试 软件自动化测试

FusionInsight怎么帮「宇宙行」建一个好的「云数据平台」?

华为云开发者联盟

大数据 数据仓库 FusionInsight 云数据平台 LakeHouse

统计机器学习导论(一)

数据与智能

机器学习 统计

手撸二叉树之另一棵树的子树

HelloWorld杰少

数据结构与算法 8月日更

自适应负载均衡算法原理与实现

万俊峰Kevin

负载均衡 微服务 负载均衡算法 Go 语言

国产数据库的挑战与机遇

晨山资本

数据库 大数据 云原生 超融合

手把手教你写 Gradle 插件 | 数据采集

神策技术社区

程序员 埋点 数据化 神策数据

多看了几套房

escray

生活记录 8月日更

极客时间架构实战营作业一

jjn0703

架构实战营

神策分析 iOS SDK 全埋点解析之启动与退出

神策技术社区

ios 代码 埋点 神策数据

百度地图开发-搭建基础脚手架 01

Andy阿辉

android Android Studio 8月日更

Battle:你会TLAB,我会逃逸分析

阿Q说代码

逃逸分析 8月日更 栈上分配 同步省略 标量替换

Go- if-else结构

HelloBug

if Go 语言 else

MySQL远程连接

一个大红包

8月日更

Linux之yum命令

入门小站

Linux

判断是否为数组的 JavaScript 方法总结

编程三昧

JavaScript 数组 8月日更

container 包详解

Rayjun

Go 语言

儿子教会我的态度

箭上有毒

8月日更

Go Channel实例剖析

非晓为骁

源码 channel Go 语言 实例分析

通过 UIView 和 UIControl 实现的蒙层,哪种更简单?

fuyoufang

swift iOS 知识体系 8月日更

又一国产大模型来了,超对称联合复旦大学发布120亿参数语言模型BBT-2, 已开源_AI&大模型_刘燕_InfoQ精选文章