NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源

  • 2023-04-24
    北京
  • 本文字数:1011 字

    阅读完需:约 3 分钟

又一国产大模型来了,超对称联合复旦大学发布120亿参数语言模型BBT-2, 已开源

InfoQ 获悉,近日,超对称联合复旦大学发布并开源 120 亿参数语言模型 BBT-2。

 

2022 年 5 月超对称技术公司发布了大语言模型 Big Bang Transformer【乾元】的第一版 BBT-1,10 亿参数预训练语言模型,在中文金融语料上训练而成。近期,超对称公司再推出 BBT-2,120 亿参数的通用大语言模型,并在 BBT-2 的基础上训出代码,金融,文生图等专业模型。

 

据悉,Big Bang Transformer【乾元】12B 大模型的开发基于英伟达的 DGX 算力,超对称公司主导大模型的预训练,并联合复旦大学知识工场实验室完成指令微调和评测工作。

 

超对称技术公司将发布基于 BBT-2 的系列模型(模型 Index 见于https://bbt.ssymmetry.com

 

  • BBT-2-12B-Text:120 亿参数的中文基础模型

  • BBT-2.5-13B-Text: 130 亿参数的中文+英文双语基础模型

  • BBT-2-12B-TC-001-SFT  经过指令微调的代码模型,可以进行对话

  • BBT-2-12B-TF-001 在 120 亿模型上训练的金融模型,用于解决金融领域任务

  • BBT-2-12B-Fig:文生图模型

  • BBT-2-12B-Science 科学论文模型

 

另外,通过与 UCloud 在开源方面的合作,超对称还将 3 个大模型开源到官网、Github 和 UCloud,后续用户可直接在 UCloud 官方平台通过 GPU 云主机的行业镜像或算力平台直接开箱使用这些模型:

 

  • BBT-1-0.2B:2 亿参数金融模型,包括三个不同预训练方式进行训练的模型, 训了 600 亿 Tokens:

 

(1)BBT-1-0.2B-001:2 亿参数,金融模型,T5 Decoder+Encoder 架构 

(2)BBT-1-0.2B-002: 2 亿参数,金融模型,T5+GPT 

(3)BBT-1-0.2B-003: 2 亿参数,金融模型,T5+UL2

 

  • BBT-1-1B:10 亿参数金融模型,T5 Encoder+Decoder 架构,使用金融中文语料库 1000 亿 tokens 进行预训练,包含社交媒体,财经新闻,券商研报,公司公告财报等数据

 

  • BBT-2-12B-Text:120 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿 token 预训练,模型性能还有较大提升空间,开发者可在通用模型上继续训练或进行下游任务微调

 

  • BBT-2.5-13B-Text: 130 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿中文+英文 tokens 预训

 

开源下载链接:

 

模型:

 

 

语料库,开源了接近 1000 亿 tokens 的预训练语料,包括通用语料和金融语料,详见:

 

 

  • 评测数据集,开源了 8 个中文金融大模型的评测数据集,详见:

https://bbt.ssymmetry.com/evaluation.html

 

论文链接:

 

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-04-24 10:004253
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.1 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

乌托邦UOT系统开发NFT技术实现

西安链酷科技

DAPP系统开发 NFT链游

筑牢网络安全防线,天翼云签署《云计算服务安全自律公约》!

天翼云开发者社区

云计算 安全

Nginx的HTTP模块与Stream模块:区别与应用场景

天翼云开发者社区

nginx Web 服务器

图形处理工具:Photoshop Elements mac中文直装版下载

mac

windows 苹果mac Photoshop Elements 图形处理工具

开源项目专访 | XuperCore——让信任的链接更加便捷

开放原子开源基金会

噢耶!字节后端Offer,拿到了!

王中阳Go

Go 面试题 面经 校招 大厂面经

高级编程计算工具MATLAB R2023a激活中文版附密钥

胖墩儿不胖y

Mac软件 数学计算工具

NFTScan | 09.18~09.24 NFT 市场热点汇总

NFT Research

NFT\

DApp交易所兑换底池模式系统开发|案例分析

西安链酷科技

DAPP系统开发

2024广州国际吸塑板片材及成型技术展览会

吹吹晚风

支持国产基础硬件的云管平台哪家好?为什么?有哪些功能?

行云管家

云计算 云安全 云管平台 行云 云成本

macos平台数据保护推荐 Data Guardian 免激活最新

mac大玩家j

数据保护 Mac软件 数据保护软件 保护数据

Illustrator 2023 mac(ai2023矢量图形编辑软件) v27.9中文激活版

mac

windows 苹果mac 矢量图形编辑软件 Illustrator 2023

华为云HBase冷热分离最佳实践

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号9月PK榜

DApp丨DeFi丨LP丨IDO丨DAO代币质押模式系统开发

西安链酷科技

DAPP系统开发

教育部-华为“智能基座”2.0正式启动,开创数智人才新生态

新消费日报

文心一言 VS 讯飞星火 VS chatgpt (100)-- 算法导论9.3 6题

福大大架构师每日一题

福大大架构师每日一题

一文带你实现云上部署轻量化定制表单Docker

华为云开发者联盟

开源 云原生 华为云 华为云开发者联盟 企业号9月PK榜

DAPP去中心化交易所系统开发|详情方案|规则逻辑

西安链酷科技

DAPP系统开发

2024广州国际汽车塑料与复合材料展览会

吹吹晚风

2024广州国际智能防伪及新型标签设备展览会

吹吹晚风

LED透明屏为什么能透明?

Dylan

AR vr 虚拟 LED显示屏 led显示屏厂家

低代码引擎 TinyEngine 正式发布!

Kagol

开源 前端 低代码

软件测试/测试开发丨利用人工智能ChatGPT自动生成PPT

测试人

人工智能 软件测试 PPT ChatGPT

深度学习之“智能标注”

矩视智能

深度学习 机器视觉

F5为OpenTelemetry项目提供降本增效的技术支持

科技热闻

量化交易/秒合约/合约跟单/交易所系统开发(成熟案例)

西安链酷科技

DAPP系统开发

2024广州国际涂布技术与模切产业展览会

吹吹晚风

自然语言处理的强大工具

百度开发者中心

自然语言处理 #人工智能 千帆大模型平台

又一国产大模型来了,超对称联合复旦大学发布120亿参数语言模型BBT-2, 已开源_AI&大模型_刘燕_InfoQ精选文章