百川智能正式发布开源大模型Baichuan 2_生成式 AI_赵钰莹



大小：887.88K时长：05:03

9 月 6 日，在北京市科学技术委员会、中关村科技园区管理委员会、北京市海淀区政府的指导下，百川智能召开主题为“百川汇海，开源共赢”的大模型发布会，中科院院士张钹亲临现场并发表致辞。会上，百川智能宣布正式开源微调后的 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 与其 4bit 量化版本，并且均为免费可商用。

百川智能此次还开源了模型训练的 Check Point，并宣布将发布 Baichuan 2 技术报告，详细介绍 Baichuan 2 的训练细节，帮助大模型学术机构、开发者和企业用户更深入的了解其训练过程，更好地推动大模型学术研究和社区的技术发展。

Baichuan 2 下载地址：https://github.com/baichuan-inc/Baichuan2

文理兼备性能优异，超过 LLaMA 2

Baichuan2-7B-Base 和 Baichuan2-13B-Base，均基于 2.6 万亿高质量多语言数据进行训练，在保留了上一代开源模型良好的生成与创作能力，流畅的多轮对话能力以及部署门槛较低等众多特性的基础上，两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升。其中 Baichuan2-13B-Base 相比上一代 13B 模型，数学能力提升 49%，代码能力提升 46%，安全能力提升 37%，逻辑推理能力提升 25%，语义理解能力提升 15%。

本次开源的两个模型在各大评测榜单上的表现优秀，在 MMLU、CMMLU、GSM8K 等几大权威评估基准中，以绝对优势领先 LLaMA2，相比其他同等参数量大模型，表现也十分亮眼，性能大幅度优于 LLaMA2 等同尺寸模型竞品。

更值得一提的是，根据 MMLU 等多个权威英文评估基准评分 Baichuan2-7B 以 70 亿的参数在英文主流任务上与 130 亿参数量的 LLaMA2 持平。

7B 参数模型的 Benchmark 成绩

13B 参数模型的 Benchmark 成绩

Baichuan2-7B 和 Baichuan2-13B 不仅对学术研究完全开放，开发者也仅需邮件申请获得官方商用许可后，即可以免费商用。

国内首创全程开源模型训练 Check Point，助力学术研究

大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入，从零到一完整训练一个模型的高昂成本，阻碍了学术界对大模型训练的深入研究。

本着协作和持续改进的精神，百川智能本次开源了模型训练从 220B 到 2640B 全过程的 Check Ponit。这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等极具价值，将极大推动国内大模型的科研进展，开源训练模型过程对国内开源生态尚属首次。

技术报告揭示训练细节，繁荣开源生态

当前大部分开源模型在开源过程中只是对外公开自身的模型权重，很少提及训练细节，企业、研究机构、开发者们只能在开源模型的基础上做有限的微调，很难进行深入研究。

秉持更开放、更透明的理念，为帮助从业者深入了解 Baichuan 2 的训练过程和相关经验，更好地推动大模型社区的技术发展。百川智能在发布会上宣布，公开 Baichuan 2 的技术报告。技术报告将详细介绍 Baichuan 2 训练的全过程，包括数据处理、模型结构优化、Scaling law、过程指标等。报告链接：

https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf

百川智能自成立之初，就将通过开源方式助力中国大模型生态繁荣作为公司的重要发展方向。成立不到四个月，便相继发布了 Baichuan-7B、Baichuan-13B 两款开源免费可商用的中文大模型，以及一款搜索增强大模型 Baichuan-53B，两款开源大模型在多个权威评测榜单均名列前茅，目前下载量超过 500 万次。

不仅如此，在今年创立的大模型公司中，百川智能是唯一一家通过《生成式人工智能服务管理暂行办法》备案，可以正式面向公众提供服务的企业。凭借行业领先的基础大模型研发和创新能力，此次开源的两款 Baichuan 2 大模型，得到了上下游企业的积极响应，腾讯云、阿里云、火山方舟、华为、联发科等众多知名企业均参加了本次发布会并与百川智能达成了合作。

未来，百川智能将在开源大模型领域持续深耕，将更多的技术能力、前沿创新开放出来，与更多的合作伙伴们共同助力中国大模型生态蓬勃发展。

发布

暂无评论

创作场景

百川智能正式发布开源大模型 Baichuan 2

评论

架构师训练营培训第一周总结

华为云如何赋能无人车飞驰？从这群AI热血少年谈起

1024！奈学教育致敬程序员3+2战略发布会重磅来袭

想自己写框架？不会写Java注解可不行

架构师训练营第一周作业

MyBatis-技术专题-拦截器介绍

技术体系的构成

1分钟带你入门 React SCU、memo、pureCom

第一周学习总结

网易：Flink + Iceberg 数据湖探索与实践

作为一名Java程序员，技术栈的广度深度都不够还想要高薪？请先把这些技术掌握再说。

LeetCode题解：50. Pow(x, n)，暴力法，JavaScript，详细注释

Spring 5.2.7和SpringBoot 2.3.3中文翻译发布啦！！！

为什么说容器的崛起预示着云原生时代到来？

2020，国产数据库崭露峥嵘的发轫之年

一周信创舆情观察(10.12~10.18)

大数据上手实战！训练营“9营齐开”第二季限时免费报名啦

了解HashMap数据结构，超详细！

第五周学习代码技术选型总结

MyBatis-技术专题-动态SQL

项目吐槽之需求分析二

【API进阶之路】研发需求突增3倍，测试团队集体闹离职

不会java的人能不能读《Head First设计模式》？

两个程序员老友的会面

我从高级开发者身上学到的19条编码原则

笔记本中的“全优生”，英特尔Evo产品上市首日秒光！

极客时间架构师训练营第一周学习总结

Java高并发编程的一本百科全书《Java高并发编程详解：多线程与架构设计》，把Java语言中最为晦涩的知识点都详解出来了！

阿里18道常见的MySQL面试题，含解析

架构师训练营 1 期 - 第五周 - 技术选型

普通人如何站在时代风口学好AI？这是我看过最好的答案

创作场景

百川智能正式发布开源大模型 Baichuan 2

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载