2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

  • 2023-11-17
    北京
  • 本文字数:1410 字

    阅读完需:约 5 分钟

大小:729.25K时长:04:08
百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

11 月 16 日,百川智能鹏城实验室宣布携手探索大模型训练和应用,合作研发基于国产算力的 128K 长窗口大模型“鹏城-百川·脑海 33B”。这是国产算力大模型创新与落地的一次实践,对国产算力大模型发展具有积极示范作用。



百川智能携手鹏城实验室助力国产算力大模型创新

 

众所周知,训练大模型需要海量的算力,并且大模型参数数量的增长与算力的平方成正比。大模型性能的竞争,一定程度上是算力的比拼。在复杂多变的国际环境下,国内算力供给与需求之间的“鸿沟”持续扩大,国产化算力已经成为国内大模型企业的必要选择。

 

虽然国内诸多企业在通用 AI 芯片方面早有布局,在芯片量产、生态构建、应用拓展领域也取得了不错进展,但基于国产算力训练大模型,仍面临着生态建设、成本控制、能效比优化等阻碍。因此算力完全自主,仍需要芯片厂商、大模型企业、学术科研机构等多方共同努力。

 

鹏城实验室表示,鹏城实验室秉持“国产算力+自主大模型”的创新理念,依托“鹏城·脑海”开源联合体,广泛联合企业、高校和科研院所,致力于通过开源群智的合作模式共享资源,为千行百业插上人工智能的“翅膀”。百川智能是国内领先的大模型企业,自成立以来一直在推动大模型研发和开源生态建设,其开源和闭源模型在同等量级权威评测中都取得了优异成绩。双方在合作过程中能够充分发挥各自优势形成合力,更好地满足我国不断增长的智能化转型需求,助力中国人工智能产业快速崛起。

 

百川智能表示,百川智能希望通过开源、与合作伙伴共创等方式助力中国大模型创新,繁荣本土大模型生态。鹏城实验室作为国家战略科技力量的重要组成部分,在国产算力大模型研发和应用等方面一直处于国内领先位置。本次百川智能与鹏城实验室合作研发“鹏城-百川·脑海 33B”长窗口大模型,是国产算力大模型技术创新和落地的一次突破。未来,百川智能将在技术、算力等诸多维度不断深化与鹏城实验室的合作,持续助力本土大模型创新发展。

 

国产算力最长上下文窗口,“鹏城-百川·脑海 33B”率先实现国产算力技术突破

 

论坛上,百川智能和鹏城实验室展示了双方共同研发的“鹏城-百川·脑海 33B”大模型。“鹏城-百川·脑海 33B”的 128K 长上下文窗口基于“鹏城云脑”国产算力平台训练,未来可升级至 192K,是基于国产算力训练的最长上下文窗口。

 

上下文窗口长度对模型理解和生成与特定上下文相关的文本至关重要,是大模型的核心技术之一。通常而言,更长的上下文窗口可以提供更丰富的语义信息、消除歧义,能够让模型生成的内容更准确、更流畅。

 

为了更好地提升“鹏城-百川·脑海 33B”上下文窗口长度和模型整体性能,百川智能和鹏城实验室对模型进行了全流程优化。在数据集构建方面,采用精细的数据构造,实现了段落、句子粒度的自动化数据过滤、选择、配比,良好的提升了数据质量;在训练架构上,通过 NormHead、max-Z-Loss、dynamic-LR 等自研或业界领先的模型训练优化技术,对 Transformer 模块进行深度优化,确保模型收敛稳定的同时,全面提升了模型优化效率和最终效果;此外,还在全生命周期的模型工具集中,通过与北京大学王亦洲、杨耀东老师团队的合作,首创了带安全约束的 RLHF 对齐技术,有效提升了模型内容生成质量和安全性。

 

未来,双方将在国产算力大模型技术创新和模型落地等方面继续加强合作,并与相关领域的优势单位如北京大学、清华大学等开展协同创新,助力本土大模型在模型性能、技术创新方面持续突破,推动本土大模型进一步开源开放,为更多行业智能化转型提供帮助和支持。

2023-11-17 14:261921

评论

发布
暂无评论
发现更多内容

华为开发者空间:递归排序教学,搭建学生成绩管理系统

华为云开发者联盟

C++ 华为开发者空间

低代码 “我的待签”怎么用,这篇给你讲得明明白白

引迈信息

AV-Comparatives获得Euregio提名

财见

如何实现“倾听智能体”:从理念到功能

lsycang

领百万Token福利!华为开发者空间 Versatile Agent自定义接入华为云MaaS全指导

华为云开发者联盟

MaaS 华为开发者空间 Versatile Agent.

A Better Finder Rename 12 mac:批量重命名,提升效率!

Rose

Kafka实时数据管道:ETL在流式处理中的应用

谷云科技RestCloud

kafka 数据传输 数据同步 ETL 数据集成

哪些AI工具可以生成PPT?9款好用的PPT生成软件盘点

职场工具箱

人工智能 PPT AIGC AI工具 AI生成PPT

AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5

汀丶人工智能

数据分析与AI丨PLC 开发效率革命:AI 多智能体加速 ST 语言开发

Altair RapidMiner

人工智能 AI 数据分析 制造业 RapidMiner

鲲鹏 DevKit 实战!华为开发者空间演示 C/C++ 源码迁移

华为云开发者联盟

鲲鹏 DevKit 华为开发者空间

大数据-98 Spark 从 DStream 到 Structured Streaming:Spark 实时计算的演进

武子康

Java 大数据 flink spark 分布式

头秃!特斯拉Model Y定金都交了,媳妇非让我换15万的铂智3X,谁来救我出纠结坑?

王中阳Go

特斯拉 买车推荐 铂智

使用 NVIDIA Dynamo 部署 PD 分离推理服务

Se7en

黑客劫持:周下载量超20+亿的NPM包被攻击

掘金安东尼

东软@IAA MOBILITY:开放协作,共绘智慧出行未来图景

先锋IT

CST软件如何用远场探针验证RCS探针结果

思茂信息

cst CST软件 CST Studio Suite

互动LED地砖屏:沉浸式娱乐

Dylan

LED LED display 零售电商市场 舞台表演 LED屏幕

第七届地球科学与遥感测绘国际学术会议(GRSM 2025)

搞科研的小刘

学术会议 遥感技术 乌鲁木齐

第二届航空航天、机械与材料工程国际学术会议 (AMME 2025)

搞科研的小刘

航空航天 国际学术会议 材料与机械

追踪定位 Java 进程的 Socket 创建

mazhen

Java Linux profiler ebpf crac

构建“超级用户共创网络”:一种实时、结构化吸纳用户洞察的机制

lsycang

开发者空间云开发环境+Versatile Agent,轻松构建AI轻量级智能办公助手

华为云开发者联盟

云原生集成开发环境 华为开发者空间 Versatile Agent.

CrossOver :在苹果mac上轻松地运行Windows软件和游戏

Rose

华为开发者空间:Java 项目 Docker 容器化,云主机实操教程

华为云开发者联盟

Docker 华为开发者空间

让中国企业飞向世界,金山办公+华为联手造了“AI协同直升机”

脑极体

AI

元图 CAD 看图:OCR 识别,让离散文字 “活” 起来

元图CAD

OCR识别 图像识别cad 文字替换 PDF转CAD

如何解决Paragon NTFS for Mac安装分卷失败

Rose

flyway报错Correct the classpath of your application so that it contains compatible versions of the

刘大猫

人工智能 机器学习 算法 数据分析 大模型

活动报名:Voice First!Demo Day@Voice Agent Camp,9.22,上海丨超音速计划 2025

声网

绕过亚马逊儿童版家长控制的技术漏洞分析

qife122

网络安全 家长控制

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术_生成式 AI_百川智能_InfoQ精选文章