亮网络解锁器,解锁网络数据的无限可能 了解详情
写点什么

百川智能正式发布开源大模型 Baichuan 2

  • 2023-09-06
    北京
  • 本文字数:1587 字

    阅读完需:约 5 分钟

大小:887.88K时长:05:03
百川智能正式发布开源大模型Baichuan 2

9 月 6 日,在北京市科学技术委员会、中关村科技园区管理委员会、北京市海淀区政府的指导下,百川智能召开主题为“百川汇海,开源共赢”的大模型发布会,中科院院士张钹亲临现场并发表致辞。会上,百川智能宣布正式开源微调后的 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 与其 4bit 量化版本,并且均为免费可商用。

百川智能此次还开源了模型训练的 Check Point,并宣布将发布 Baichuan 2 技术报告,详细介绍 Baichuan 2 的训练细节,帮助大模型学术机构、开发者和企业用户更深入的了解其训练过程,更好地推动大模型学术研究和社区的技术发展。

Baichuan 2 下载地址:https://github.com/baichuan-inc/Baichuan2 

文理兼备性能优异,超过 LLaMA 2

Baichuan2-7B-Base 和 Baichuan2-13B-Base,均基于 2.6 万亿高质量多语言数据进行训练,在保留了上一代开源模型良好的生成与创作能力,流畅的多轮对话能力以及部署门槛较低等众多特性的基础上,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。其中 Baichuan2-13B-Base 相比上一代 13B 模型,数学能力提升 49%,代码能力提升 46%,安全能力提升 37%,逻辑推理能力提升 25%,语义理解能力提升 15%。

本次开源的两个模型在各大评测榜单上的表现优秀,在 MMLU、CMMLU、GSM8K 等几大权威评估基准中,以绝对优势领先 LLaMA2,相比其他同等参数量大模型,表现也十分亮眼,性能大幅度优于 LLaMA2 等同尺寸模型竞品。

 

更值得一提的是,根据 MMLU 等多个权威英文评估基准评分 Baichuan2-7B 以 70 亿的参数在英文主流任务上与 130 亿参数量的 LLaMA2 持平。

7B 参数模型的 Benchmark 成绩

13B 参数模型的 Benchmark 成绩

Baichuan2-7B 和 Baichuan2-13B 不仅对学术研究完全开放,开发者也仅需邮件申请获得官方商用许可后,即可以免费商用。

国内首创全程开源模型训练 Check Point,助力学术研究

大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入,从零到一完整训练一个模型的高昂成本,阻碍了学术界对大模型训练的深入研究。

本着协作和持续改进的精神,百川智能本次开源了模型训练从 220B 到 2640B 全过程的 Check Ponit。这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等极具价值,将极大推动国内大模型的科研进展,开源训练模型过程对国内开源生态尚属首次。

技术报告揭示训练细节,繁荣开源生态

当前大部分开源模型在开源过程中只是对外公开自身的模型权重,很少提及训练细节,企业、研究机构、开发者们只能在开源模型的基础上做有限的微调,很难进行深入研究。

秉持更开放、更透明的理念,为帮助从业者深入了解 Baichuan 2 的训练过程和相关经验,更好地推动大模型社区的技术发展。百川智能在发布会上宣布,公开 Baichuan 2 的技术报告。技术报告将详细介绍 Baichuan 2 训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等。报告链接:

https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf 


百川智能自成立之初,就将通过开源方式助力中国大模型生态繁荣作为公司的重要发展方向。成立不到四个月,便相继发布了 Baichuan-7B、Baichuan-13B 两款开源免费可商用的中文大模型,以及一款搜索增强大模型 Baichuan-53B,两款开源大模型在多个权威评测榜单均名列前茅,目前下载量超过 500 万次。

 

不仅如此,在今年创立的大模型公司中,百川智能是唯一一家通过《生成式人工智能服务管理暂行办法》备案,可以正式面向公众提供服务的企业。凭借行业领先的基础大模型研发和创新能力,此次开源的两款 Baichuan 2 大模型,得到了上下游企业的积极响应,腾讯云、阿里云、火山方舟、华为、联发科等众多知名企业均参加了本次发布会并与百川智能达成了合作。

未来,百川智能将在开源大模型领域持续深耕,将更多的技术能力、前沿创新开放出来,与更多的合作伙伴们共同助力中国大模型生态蓬勃发展。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-09-06 17:554602
用户头像
赵钰莹 InfoQ 主编

发布了 876 篇内容, 共 608.0 次阅读, 收获喜欢 2671 次。

关注

评论

发布
暂无评论
发现更多内容

什么是“语法糖”?Java中有哪些常见糖?

Java你猿哥

Java ssm Java工程师 语法糖

百度大健康行业如何打造医美IP爆点?这波“悦己”营销有颜又有料!

Geek_2d6073

一文详解扩散模型:DDPM

京东科技开发者

人工智能 AIGC 企业号 3 月 PK 榜 DDPM

WorkPlus IM即时通讯平台,管理者不会拒绝的高效通讯办公工具

WorkPlus

GitHub上架即下架!《分布式系统人人都是架构师》全彩笔记开源

做梦都在改BUG

Java 分布式 系统架构 架构师

阿里架构调整完毕,成立云智能集团全面独立经营,张勇兼任CEO

B Impact

微服务架构下你不得不知的3种部署策略

做梦都在改BUG

Java 架构 微服务

从 1000+ 参赛项目突围,涛思数据荣获 ITEC 2022 全球创业赛成长组二等奖

TDengine

tdengine 物联网 时序数据库 数字经济 大数据 开源

AI + Kubernetes 赋能DevSecOps 的思考

HummerCloud

人工智能 Kubernetes DevOps

运动健康路线导入,助力用户轻松导航

HMS Core

HMS Core

手慢无!阿里云神作《Spring Boot进阶原理实战》真的太全了!

做梦都在改BUG

Java 微服务 Spring Boot 框架

2023年金三银四最新版Java面试八股文教程,涵盖25大专题:Java基础+spring全家桶+大数据+网络+设计模式+算法

采菊东篱下

Java 程序员 面试

Bytebase vs Flyway

Bytebase

数据库 版本控制 变更

置顶两个月!《程序员如何向架构师转型》神作在Github持续霸榜

做梦都在改BUG

Java 程序员 系统设计 架构师

低代码平台搭建CRM 加速重构业务模式

力软低代码开发平台

数据出境是什么意思?我国数据出境合规要求是什么?

行云管家

数据 数据安全 堡垒机 数据出境

2023字节、腾讯、阿里等6家大厂Java开发面试真题+高频面试题总结

小小怪下士

Java java程序员 java面试 Java面试题

LED透明屏私人定制势不可挡

Dylan

电子 LED显示屏 屏幕

MobTech MobPush|智能标签推送

MobTech袤博科技

CVPR 2023 大模型研讨会召开在即,国际技术竞赛正式开赛

飞桨PaddlePaddle

马鞍山等级测评机构有哪些?有几家?在哪里?

行云管家

等保测评 等级测评 马鞍山

2023 微信公开课黄铁鸣企业微信最新动态:1200w、5亿客户、GMV上千亿

B Impact

行业分析| anyRTC智慧视频监控的应用

anyRTC开发者

人工智能 音视频 智慧城市 智慧交通 视频监控

机器学习算法(九): 基于线性判别模型的LDA手写数字分类识别

汀丶人工智能

人工智能 数据挖掘 机器学习 LDA算法

接通率维持66%以上,为什么火山引擎VeDI能让企业智能外呼不再难?

字节跳动数据平台

营销 用户增长 业务增长 客户数据 企业号 3 月 PK 榜

小程序营销模版——企业和开发者的应用形态

没有用户名丶

小程序容器

前端和低代码两者藕断丝连的关系

这我可不懂

前端 低代码 JNPF

KubeVela 1.7 版本解读:接管你的已有工作负载

阿里巴巴云原生

阿里云 开源 云原生 KubeVela

阿里巴巴为什么不建议直接使用@Async注解?

Java你猿哥

Java ssm java8 Async Java工程师

用注解的方式优雅实现Ression分布式锁

做梦都在改BUG

Java 分布式锁 Ression

凭借左程云(左神)的这份 “程序员代码面试指南”我入职了字节

Java你猿哥

Java 算法 数组 二叉树 面经

百川智能正式发布开源大模型Baichuan 2_生成式 AI_赵钰莹_InfoQ精选文章