NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

  • 2023-11-17
    北京
  • 本文字数:1410 字

    阅读完需:约 5 分钟

大小:729.25K时长:04:08
百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

11 月 16 日,百川智能鹏城实验室宣布携手探索大模型训练和应用,合作研发基于国产算力的 128K 长窗口大模型“鹏城-百川·脑海 33B”。这是国产算力大模型创新与落地的一次实践,对国产算力大模型发展具有积极示范作用。



百川智能携手鹏城实验室助力国产算力大模型创新

 

众所周知,训练大模型需要海量的算力,并且大模型参数数量的增长与算力的平方成正比。大模型性能的竞争,一定程度上是算力的比拼。在复杂多变的国际环境下,国内算力供给与需求之间的“鸿沟”持续扩大,国产化算力已经成为国内大模型企业的必要选择。

 

虽然国内诸多企业在通用 AI 芯片方面早有布局,在芯片量产、生态构建、应用拓展领域也取得了不错进展,但基于国产算力训练大模型,仍面临着生态建设、成本控制、能效比优化等阻碍。因此算力完全自主,仍需要芯片厂商、大模型企业、学术科研机构等多方共同努力。

 

鹏城实验室表示,鹏城实验室秉持“国产算力+自主大模型”的创新理念,依托“鹏城·脑海”开源联合体,广泛联合企业、高校和科研院所,致力于通过开源群智的合作模式共享资源,为千行百业插上人工智能的“翅膀”。百川智能是国内领先的大模型企业,自成立以来一直在推动大模型研发和开源生态建设,其开源和闭源模型在同等量级权威评测中都取得了优异成绩。双方在合作过程中能够充分发挥各自优势形成合力,更好地满足我国不断增长的智能化转型需求,助力中国人工智能产业快速崛起。

 

百川智能表示,百川智能希望通过开源、与合作伙伴共创等方式助力中国大模型创新,繁荣本土大模型生态。鹏城实验室作为国家战略科技力量的重要组成部分,在国产算力大模型研发和应用等方面一直处于国内领先位置。本次百川智能与鹏城实验室合作研发“鹏城-百川·脑海 33B”长窗口大模型,是国产算力大模型技术创新和落地的一次突破。未来,百川智能将在技术、算力等诸多维度不断深化与鹏城实验室的合作,持续助力本土大模型创新发展。

 

国产算力最长上下文窗口,“鹏城-百川·脑海 33B”率先实现国产算力技术突破

 

论坛上,百川智能和鹏城实验室展示了双方共同研发的“鹏城-百川·脑海 33B”大模型。“鹏城-百川·脑海 33B”的 128K 长上下文窗口基于“鹏城云脑”国产算力平台训练,未来可升级至 192K,是基于国产算力训练的最长上下文窗口。

 

上下文窗口长度对模型理解和生成与特定上下文相关的文本至关重要,是大模型的核心技术之一。通常而言,更长的上下文窗口可以提供更丰富的语义信息、消除歧义,能够让模型生成的内容更准确、更流畅。

 

为了更好地提升“鹏城-百川·脑海 33B”上下文窗口长度和模型整体性能,百川智能和鹏城实验室对模型进行了全流程优化。在数据集构建方面,采用精细的数据构造,实现了段落、句子粒度的自动化数据过滤、选择、配比,良好的提升了数据质量;在训练架构上,通过 NormHead、max-Z-Loss、dynamic-LR 等自研或业界领先的模型训练优化技术,对 Transformer 模块进行深度优化,确保模型收敛稳定的同时,全面提升了模型优化效率和最终效果;此外,还在全生命周期的模型工具集中,通过与北京大学王亦洲、杨耀东老师团队的合作,首创了带安全约束的 RLHF 对齐技术,有效提升了模型内容生成质量和安全性。

 

未来,双方将在国产算力大模型技术创新和模型落地等方面继续加强合作,并与相关领域的优势单位如北京大学、清华大学等开展协同创新,助力本土大模型在模型性能、技术创新方面持续突破,推动本土大模型进一步开源开放,为更多行业智能化转型提供帮助和支持。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-11-17 14:26675

评论

发布
暂无评论
发现更多内容

语音厅源码实用功能屏幕的转换

山东布谷科技

软件开发 源码搭建 语音源码 语音厅平台搭建

为什么很多互联网公司很少做单元测试?

博文视点Broadview

教你学会使用Angular 应用里的 export declare const X Y

华为云开发者联盟

前端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

沈阳等级保护测评机构有哪些?有几家?在哪里?

行云管家

等保 等级保护 等保测评 沈阳

专场来袭,深度解读阿里云视频云的全智能进化

阿里云视频云

云计算 阿里云 视频云

ClickHouse数据表迁移实战之-remote方式 | 京东云技术团队

京东科技开发者

Clickhouse 数据迁移 Remote 迁移数据 企业号 6 月 PK 榜

这问题巧了,SpringMVC 不同参数处理机制引发的思考 | 京东云技术团队

京东科技开发者

spring springmvc HTTP 请求方式 企业号 6 月 PK 榜

Python Joblib库使用学习总结

EquatorCoco

Python

堡垒机的作用以及价格简单说明-行云管家

行云管家

网络安全 堡垒机 IT运维

h2database BTree 设计实现与查询优化思考 | 京东云技术团队

京东科技开发者

数据库 索引 B+tree 企业号 6 月 PK 榜 h2database

如何驯化机器狗读懂人类手势,手把手教你!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨

inBuilder低代码平台特性推荐系列-第四期

inBuilder低代码平台

2023-06-26:在大小为 n x n 的网格 grid 上,每个单元格都有一盏灯,最初灯都处于 关闭 状态 给你一个由灯的位置组成的二维数组 lamps 其中 lamps[i] = [rowi,

福大大架构师每日一题

Go 算法 rust 福大大架构师每日一题

使用 ProcessBuilder API 优化你的流程

快乐非自愿限量之名

数据库 框架开发 开发语言 process

Hive执行计划之只有map阶段SQL性能分析和解读

不在线第一只蜗牛

sql 开发语言 开发框架

DataLeap的全链路智能监控报警实践(二):概念介绍

字节跳动数据平台

数据库性能优化必读,AntDB-M数据库的哈希索引设计

亚信AntDB数据库

数据库 AntDB AntDB数据库 企业号 6 月 PK 榜

磐舟磐基平台:基于KubeEdge的落地实践

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

6个常见的IB网络不通问题

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

JavaScript 实践+理论(总结篇):作用域、闭包、this、对象原型

控心つcrazy

闭包 原型链 作用域 this 原型模式

Java又双叒叕“凉”了?

程序员小毕

Java spring 面试 springboot SpringCloud

喜报:Apache Flink 荣获 2023 年度 SIGMOD 系统奖 !!!

Apache Flink

大数据 flink 实时计算

福昕软件与北信源达成战略合作,构建PDF文档安全新格局

新消费日报

云游世界NFT卷轴游戏dapp系统开发合约定制

开发微hkkf5566

精选8道ES高频面试题和答案,后悔没早点看。

王中阳Go

elasticsearch 面试题 go面试题 后端面试题 ES面试题

Seamless Mobility in Wi-Fi Networks: Exploring the Benefits of Fast Roaming

wallyslilly

IPQ6010 ipq6018 ipq5018 FASTROAMING

NFTScan | 06.19~06.25 NFT 市场热点汇总

NFT Research

热点 NFT\ 市场

基于 LRU-K 模型如何实现高效的元数据缓存?

焱融科技

#高性能 #文件存储 #分布式存储

百度召开CVPR首个大模型研讨会,吸引超1000支队伍参与文心大模型国际比赛

新消费日报

从2PC和容错共识算法讨论zookeeper中的Create请求 | 京东云技术团队

京东科技开发者

zookeeper 分布式事务 zookeeper分布式锁 企业号 6 月 PK 榜 容错共识算法

用代码玩转迷你图:手把手教你用编程语言打造简洁易读的数据图表!

不在线第一只蜗牛

代码 框架开发

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术_生成式 AI_百川智能_InfoQ精选文章