写点什么

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

  • 2023-11-17
    北京
  • 本文字数:1410 字

    阅读完需:约 5 分钟

大小:729.25K时长:04:08
百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

11 月 16 日,百川智能鹏城实验室宣布携手探索大模型训练和应用,合作研发基于国产算力的 128K 长窗口大模型“鹏城-百川·脑海 33B”。这是国产算力大模型创新与落地的一次实践,对国产算力大模型发展具有积极示范作用。



百川智能携手鹏城实验室助力国产算力大模型创新

 

众所周知,训练大模型需要海量的算力,并且大模型参数数量的增长与算力的平方成正比。大模型性能的竞争,一定程度上是算力的比拼。在复杂多变的国际环境下,国内算力供给与需求之间的“鸿沟”持续扩大,国产化算力已经成为国内大模型企业的必要选择。

 

虽然国内诸多企业在通用 AI 芯片方面早有布局,在芯片量产、生态构建、应用拓展领域也取得了不错进展,但基于国产算力训练大模型,仍面临着生态建设、成本控制、能效比优化等阻碍。因此算力完全自主,仍需要芯片厂商、大模型企业、学术科研机构等多方共同努力。

 

鹏城实验室表示,鹏城实验室秉持“国产算力+自主大模型”的创新理念,依托“鹏城·脑海”开源联合体,广泛联合企业、高校和科研院所,致力于通过开源群智的合作模式共享资源,为千行百业插上人工智能的“翅膀”。百川智能是国内领先的大模型企业,自成立以来一直在推动大模型研发和开源生态建设,其开源和闭源模型在同等量级权威评测中都取得了优异成绩。双方在合作过程中能够充分发挥各自优势形成合力,更好地满足我国不断增长的智能化转型需求,助力中国人工智能产业快速崛起。

 

百川智能表示,百川智能希望通过开源、与合作伙伴共创等方式助力中国大模型创新,繁荣本土大模型生态。鹏城实验室作为国家战略科技力量的重要组成部分,在国产算力大模型研发和应用等方面一直处于国内领先位置。本次百川智能与鹏城实验室合作研发“鹏城-百川·脑海 33B”长窗口大模型,是国产算力大模型技术创新和落地的一次突破。未来,百川智能将在技术、算力等诸多维度不断深化与鹏城实验室的合作,持续助力本土大模型创新发展。

 

国产算力最长上下文窗口,“鹏城-百川·脑海 33B”率先实现国产算力技术突破

 

论坛上,百川智能和鹏城实验室展示了双方共同研发的“鹏城-百川·脑海 33B”大模型。“鹏城-百川·脑海 33B”的 128K 长上下文窗口基于“鹏城云脑”国产算力平台训练,未来可升级至 192K,是基于国产算力训练的最长上下文窗口。

 

上下文窗口长度对模型理解和生成与特定上下文相关的文本至关重要,是大模型的核心技术之一。通常而言,更长的上下文窗口可以提供更丰富的语义信息、消除歧义,能够让模型生成的内容更准确、更流畅。

 

为了更好地提升“鹏城-百川·脑海 33B”上下文窗口长度和模型整体性能,百川智能和鹏城实验室对模型进行了全流程优化。在数据集构建方面,采用精细的数据构造,实现了段落、句子粒度的自动化数据过滤、选择、配比,良好的提升了数据质量;在训练架构上,通过 NormHead、max-Z-Loss、dynamic-LR 等自研或业界领先的模型训练优化技术,对 Transformer 模块进行深度优化,确保模型收敛稳定的同时,全面提升了模型优化效率和最终效果;此外,还在全生命周期的模型工具集中,通过与北京大学王亦洲、杨耀东老师团队的合作,首创了带安全约束的 RLHF 对齐技术,有效提升了模型内容生成质量和安全性。

 

未来,双方将在国产算力大模型技术创新和模型落地等方面继续加强合作,并与相关领域的优势单位如北京大学、清华大学等开展协同创新,助力本土大模型在模型性能、技术创新方面持续突破,推动本土大模型进一步开源开放,为更多行业智能化转型提供帮助和支持。

2023-11-17 14:261792

评论

发布
暂无评论
发现更多内容

无需代码!通过 Dataway 配置一个带有分页查询的接口

哈库纳

spring springboot Dataway Hasor

Gartner 【RPA市场竞争格局】:中国厂商首次进入国际视野

人称T客

自己常用的一些快捷键 windows10

halapano

Windows技巧

《程序员的数学》笔记

Rex

读书笔记

Vol.6 几个数据库相关的词

pyfn2030

数据库 大数据 新手指南

绝了!Dataway让Spring Boot不再需要Controller、Service、DAO、Mapper

哈库纳

StringBoot DataQL

Vol.3 人工智能这么热,你必须知道一点儿!

pyfn2030

人工智能

计算机的时间

伴鱼技术团队

分布式 服务器 技术交流

使用SpreadJS 开发在线问卷系统,构筑CCP(云数据采集)平台

葡萄城技术团队

数据挖掘 大数据 SpreadJS CCP

免费领课的活动你错过了么?

池建强

极客时间

【快点查查】微信小程序使用流程

tomatocc

Dataway 配置数据接口时和前端进行参数对接

哈库纳

Spring Boot DataQL Dataway Hasor

Dataway 整合 Swagger2,让 API 管理更顺畅

哈库纳

Spring Boot DataQL Dataway Hasor

代码简洁之路 [持续更新]

hq

Java 大前端 编程习惯

ARTS-WEEK01

子路无倦

ARTS 打卡计划

艺术生,我劝你Mac

zhoo299

Mac CG 艺术

系统服务化构建-两方OAuth

图南日晟

微服务 软件工程 身份认证 架构设计

Dataway 4.1.5 以上版本升级指南

哈库纳

string StringBoot Dataway Hasor

Anaconda与虚拟环境

halapano

Python virtualenv Anaconda

Vol.2 谷歌不只有搜索

pyfn2030

谷歌Google

Vol.4 了解一下渗透测试

pyfn2030

黑客 网络安全

说到做到

Yukun

拖延症

Vol.5 Go初探,新手必看!

pyfn2030

编程语言 新手指南

AB 测试平台的设计与实现

伴鱼技术团队

架构 系统设计 后端 A/B

完美兼容老项目!Dataway 4.1.6 返回结构的全面控制

哈库纳

spring Spring Boot Dataway Hasor

如何用一台电脑制作一部动画短片?

zhoo299

动画 CG

原创 | 使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (十)在项目中准备测试环境

编程道与术

Java 编程 软件测试 TDD 单元测试

从 0 到 1 搭建技术中台之技术文化篇

伴鱼技术团队

企业文化 技术管理

那些会阻碍程序员成长的细节[1]

MavenTalker

程序员 职业规划

码农远程办公指北

大伟

Wi-Fi p2p & ap 共存

贾献华

wifi p2p ap

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术_生成式 AI_百川智能_InfoQ精选文章