【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源

  • 2023-04-24
    北京
  • 本文字数:1011 字

    阅读完需:约 3 分钟

又一国产大模型来了,超对称联合复旦大学发布120亿参数语言模型BBT-2, 已开源

InfoQ 获悉,近日,超对称联合复旦大学发布并开源 120 亿参数语言模型 BBT-2。

 

2022 年 5 月超对称技术公司发布了大语言模型 Big Bang Transformer【乾元】的第一版 BBT-1,10 亿参数预训练语言模型,在中文金融语料上训练而成。近期,超对称公司再推出 BBT-2,120 亿参数的通用大语言模型,并在 BBT-2 的基础上训出代码,金融,文生图等专业模型。

 

据悉,Big Bang Transformer【乾元】12B 大模型的开发基于英伟达的 DGX 算力,超对称公司主导大模型的预训练,并联合复旦大学知识工场实验室完成指令微调和评测工作。

 

超对称技术公司将发布基于 BBT-2 的系列模型(模型 Index 见于https://bbt.ssymmetry.com

 

  • BBT-2-12B-Text:120 亿参数的中文基础模型

  • BBT-2.5-13B-Text: 130 亿参数的中文+英文双语基础模型

  • BBT-2-12B-TC-001-SFT  经过指令微调的代码模型,可以进行对话

  • BBT-2-12B-TF-001 在 120 亿模型上训练的金融模型,用于解决金融领域任务

  • BBT-2-12B-Fig:文生图模型

  • BBT-2-12B-Science 科学论文模型

 

另外,通过与 UCloud 在开源方面的合作,超对称还将 3 个大模型开源到官网、Github 和 UCloud,后续用户可直接在 UCloud 官方平台通过 GPU 云主机的行业镜像或算力平台直接开箱使用这些模型:

 

  • BBT-1-0.2B:2 亿参数金融模型,包括三个不同预训练方式进行训练的模型, 训了 600 亿 Tokens:

 

(1)BBT-1-0.2B-001:2 亿参数,金融模型,T5 Decoder+Encoder 架构 

(2)BBT-1-0.2B-002: 2 亿参数,金融模型,T5+GPT 

(3)BBT-1-0.2B-003: 2 亿参数,金融模型,T5+UL2

 

  • BBT-1-1B:10 亿参数金融模型,T5 Encoder+Decoder 架构,使用金融中文语料库 1000 亿 tokens 进行预训练,包含社交媒体,财经新闻,券商研报,公司公告财报等数据

 

  • BBT-2-12B-Text:120 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿 token 预训练,模型性能还有较大提升空间,开发者可在通用模型上继续训练或进行下游任务微调

 

  • BBT-2.5-13B-Text: 130 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿中文+英文 tokens 预训

 

开源下载链接:

 

模型:

 

 

语料库,开源了接近 1000 亿 tokens 的预训练语料,包括通用语料和金融语料,详见:

 

 

  • 评测数据集,开源了 8 个中文金融大模型的评测数据集,详见:

https://bbt.ssymmetry.com/evaluation.html

 

论文链接:

 

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-04-24 10:004258
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.9 次阅读, 收获喜欢 1968 次。

关注

评论

发布
暂无评论
发现更多内容

软件供应链安全继续强化:SBOM清单基座规范SBOMit启动制订

sender_is_sender

软件开发生命周期 软件供应链安全 软件物料清单(SBOM) in-toto

eudic欧路词典下载 mac翻译软件 v4.5.9 增强激活版 支持m1 m2

南屿

Mac 翻译软件 欧路词典 Eudic Eudic欧路词典破解版 英汉翻译

OpenAI又放大招!大幅暴降,修复GPT-4变懒!

鹤涵

《Kafka权威指南》PDF

程序员李木子

左耳听风 - 管理方式「读书打卡 day 18」

Java 工程师蔡姬

读书笔记 程序员 个人成长 职业发展 管理方式

解决 Parallels Desktop 虚拟机不能连网的问题 含Parallels19一键激活版安装包

Rose

虚拟机 Parallels Desktop

车内语音识别技术:重塑智能驾驶的未来

来自四九城儿

EMQ 发布MQTT over QUIC 白皮书:下一代车联网消息传输标准协议

新消费日报

好用的截图工具Snagit功能介绍及Snagit中文下载安装

Rose

截图 Snagit下载 Snagit 2023 Snagit截图软件

istio工作原理

百度搜索:蓝易云

Linux 运维 istio 云服务器 Sidecar

premiere pro 2023的字幕功能使用教程 含PR2023中文下载安装包

南屿

PR adobe PR2023中文版 Premiere Pro字幕

resolume arena破解版 附安装教程 Mac电脑VJ调试软件 兼容M1

南屿

Mac软件 苹果电脑 Resolume Arena 7破解版 VJ调试 Resolume Arena 安装教程

微信Mac版怎么下载安装?含Mac版微信防撤回、多开助手

南屿

微信助手 微信分身

《深入理解Kafka:核心设计与实践原理》PDF

程序员李木子

Turbo Boost Switcher Pro永久激活版 cpu温度检测调节工具 mac软件下载

Rose

苹果电脑 CPU性能 Turbo Boost Switcher Pro cpu频率调节

听GPT 讲Rust源代码--compiler(35)

fliter

8个可替代Visio的绘图软件推荐!每一款都堪称神器。

彭宏豪95

效率工具 流程图 在线白板 绘图软件 Visio

硬负载均衡和软负载均衡有什么区别?

百度搜索:蓝易云

云计算 Linux 负载均衡 运维 云服务器

Bartender 4 下载 Mac菜单栏管理 v4.2.25 支持m1 m2

南屿

Bartender 4 Bartender5 Bartender破解版 Mac软件下载站

轻量级UML建模工具 Astah Professional mac注册激活版 附详细安装教程

南屿

UML建模 Astah Professional破解版 astah professional怎么用

C# 面向对象编程进阶:构造函数详解与访问修饰符应用

小万哥

C# 程序人生 编程语言 软件工程 后端开发

JProfiler 14 mac永久稳定版 含jprofiler14激活许可 兼容M1/M2

南屿

Java JProfiler Mac永久激活版 JProfiler 14

使用NGINX在Kubernetes中对TCP和UDP流量进行负载均衡设置教程

百度搜索:蓝易云

nginx Linux Kubernetes TCP udp

Cheetah3D 8:对 Apple Silicon 的原生支持 Metal API 的本机支持

南屿

动画 渲染 3d建模 Cheetah3D注册机 Cheetah3D 8新功能

专业的iOS解锁工具AnyMP4 iPhone Unlocker mac直装免激活版

南屿

Mac软件 iPhone解锁器 iOS解锁 AnyMP4 iPhone

如何应对Android面试官-> NestedScrollView 嵌套滑动机制详解,手写 NestedScrollView 核心实现

老A说

android UI Java’ View

直播预告|原生 vs 跨端,聊聊鸿蒙应用开发的真实感受

小红书技术REDtech

鸿蒙 前端 开发 跨端开发 小红书

Red Giant Universe 2024破解版 AE红巨星特效插件包for mac 兼容M1/M2

南屿

红巨人特效插件 视频特效插件 Red Giant2024

作者推荐 | 【深入浅出MySQL】「底层原理」探秘缓冲池的核心奥秘,揭示终极洞察

洛神灬殇

MySQL 底层原理 缓冲池 Buffer Pool 2024年第二十三篇文章

幻兽帕鲁来啦!京东云召唤你一键开服,快来私服联机

京东科技开发者

数字人短视频制作软件!

青否数字人

数字人

又一国产大模型来了,超对称联合复旦大学发布120亿参数语言模型BBT-2, 已开源_AI&大模型_刘燕_InfoQ精选文章