写点什么

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

  • 2023-11-17
    北京
  • 本文字数:1410 字

    阅读完需:约 5 分钟

大小:729.25K时长:04:08
百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

11 月 16 日,百川智能鹏城实验室宣布携手探索大模型训练和应用,合作研发基于国产算力的 128K 长窗口大模型“鹏城-百川·脑海 33B”。这是国产算力大模型创新与落地的一次实践,对国产算力大模型发展具有积极示范作用。



百川智能携手鹏城实验室助力国产算力大模型创新

 

众所周知,训练大模型需要海量的算力,并且大模型参数数量的增长与算力的平方成正比。大模型性能的竞争,一定程度上是算力的比拼。在复杂多变的国际环境下,国内算力供给与需求之间的“鸿沟”持续扩大,国产化算力已经成为国内大模型企业的必要选择。

 

虽然国内诸多企业在通用 AI 芯片方面早有布局,在芯片量产、生态构建、应用拓展领域也取得了不错进展,但基于国产算力训练大模型,仍面临着生态建设、成本控制、能效比优化等阻碍。因此算力完全自主,仍需要芯片厂商、大模型企业、学术科研机构等多方共同努力。

 

鹏城实验室表示,鹏城实验室秉持“国产算力+自主大模型”的创新理念,依托“鹏城·脑海”开源联合体,广泛联合企业、高校和科研院所,致力于通过开源群智的合作模式共享资源,为千行百业插上人工智能的“翅膀”。百川智能是国内领先的大模型企业,自成立以来一直在推动大模型研发和开源生态建设,其开源和闭源模型在同等量级权威评测中都取得了优异成绩。双方在合作过程中能够充分发挥各自优势形成合力,更好地满足我国不断增长的智能化转型需求,助力中国人工智能产业快速崛起。

 

百川智能表示,百川智能希望通过开源、与合作伙伴共创等方式助力中国大模型创新,繁荣本土大模型生态。鹏城实验室作为国家战略科技力量的重要组成部分,在国产算力大模型研发和应用等方面一直处于国内领先位置。本次百川智能与鹏城实验室合作研发“鹏城-百川·脑海 33B”长窗口大模型,是国产算力大模型技术创新和落地的一次突破。未来,百川智能将在技术、算力等诸多维度不断深化与鹏城实验室的合作,持续助力本土大模型创新发展。

 

国产算力最长上下文窗口,“鹏城-百川·脑海 33B”率先实现国产算力技术突破

 

论坛上,百川智能和鹏城实验室展示了双方共同研发的“鹏城-百川·脑海 33B”大模型。“鹏城-百川·脑海 33B”的 128K 长上下文窗口基于“鹏城云脑”国产算力平台训练,未来可升级至 192K,是基于国产算力训练的最长上下文窗口。

 

上下文窗口长度对模型理解和生成与特定上下文相关的文本至关重要,是大模型的核心技术之一。通常而言,更长的上下文窗口可以提供更丰富的语义信息、消除歧义,能够让模型生成的内容更准确、更流畅。

 

为了更好地提升“鹏城-百川·脑海 33B”上下文窗口长度和模型整体性能,百川智能和鹏城实验室对模型进行了全流程优化。在数据集构建方面,采用精细的数据构造,实现了段落、句子粒度的自动化数据过滤、选择、配比,良好的提升了数据质量;在训练架构上,通过 NormHead、max-Z-Loss、dynamic-LR 等自研或业界领先的模型训练优化技术,对 Transformer 模块进行深度优化,确保模型收敛稳定的同时,全面提升了模型优化效率和最终效果;此外,还在全生命周期的模型工具集中,通过与北京大学王亦洲、杨耀东老师团队的合作,首创了带安全约束的 RLHF 对齐技术,有效提升了模型内容生成质量和安全性。

 

未来,双方将在国产算力大模型技术创新和模型落地等方面继续加强合作,并与相关领域的优势单位如北京大学、清华大学等开展协同创新,助力本土大模型在模型性能、技术创新方面持续突破,推动本土大模型进一步开源开放,为更多行业智能化转型提供帮助和支持。

2023-11-17 14:261869

评论

发布
暂无评论
发现更多内容

深入探索Linux零拷贝原理

C++后台开发

后台开发 零拷贝 linux开发 Linux服务器开发 C++开发

软件测试 | 测试开发 | TestNG 与 Junit 对比,测试框架如何选择?

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 接口自动化测试框架 RESTAssured 实践(三):对 Response 结果导出

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 只需搞定Docker,环境问题再也不是测开路上的『坑』

测吧(北京)科技有限公司

测试

[SpringMVC]REST入门案例与优化

十八岁讨厌编程

spring 后端开发 9月月更

软件测试 | 测试开发 | 代码质量管理平台实战| SonarQube 安装、配置及 JaCoCo、Maven 集成

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 持续交付-Jenkinsfile 语法

测吧(北京)科技有限公司

软件测试 | 测试开发 | 专项测试实战 | 如何测试 App 流畅度(基于 FPS 和丢帧率)?

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | Java 接口自动化测试首选方案:REST Assured 实践 (一)

测吧(北京)科技有限公司

测试

数字技术推动乡村振兴,腾讯云助力上线大通农文旅融合数字化平台

科技热闻

软件测试 | 测试开发 | 大话测试数据(一)

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 学习Docker就应该掌握的dockerfile语法与指令

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | Docker+Jmeter+InfluxDB+Grafana 搭建性能监控平台

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 后端Web开发框架(Java)

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 大话JMeter4|不同的并发数可以自动化做压测吗?

测吧(北京)科技有限公司

测试

[SpringMVC]bean加载控制

十八岁讨厌编程

spring 后端开发 9月月更

合同抵万金,禅道项目管理服务包免费领!

禅道项目管理

项目管理 禅道

软件测试 | 测试开发 | 代码分析体系及Sonarqube平台

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 云架构系统如何做性能分析?

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 如何确保API 的稳定性与正确性?你只需要这一招

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | JMeter 典型电商场景(下单/支付)的性能压测

测吧(北京)科技有限公司

测试

基于RESTful页面数据交互案例

十八岁讨厌编程

RESTful 后端开发 9月月更

一起瓜分20万奖金【第三届火焰杯软件测试大赛开始公开选拔】

测试人

软件测试 自动化测试 接口测试 测试开发 比赛

软件测试 | 测试开发 | 电商业务性能测试(二): Jmeter 参数化功能实现注册登录的数据驱动

测吧(北京)科技有限公司

测试

开发者有话说|前路有光,初心莫忘,从编程小白,到如今小有所成,我这一路是如何走来的?

浅羽技术

个人成长 经验分享 自学java 开发者有话说 职场妙招

软件测试 | 测试开发 | 如何做好性能压测(一):压测环境的设计和搭建

测吧(北京)科技有限公司

测试

【JavaScript】巩固JS开发中十个常用功能/案例(11-20)

海底烧烤店ai

算法 前端 JavaScrip 9月月更

软件测试 | 测试开发 |H5性能分析实战来啦~

测吧(北京)科技有限公司

测试

嗨,程序员,你知道高级工程师用的搜索引擎吗?

梦想橡皮擦

9月月更

软件测试 | 测试开发 | REST Assured 实践(二):断言实现

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 同样是断言,为何 Hamcrest 如此优秀?

测吧(北京)科技有限公司

测试

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术_生成式 AI_百川智能_InfoQ精选文章