写点什么

文心大模型 4.5 系列正式开源,涵盖 10 余款模型

  • 2025-06-30
    北京
  • 本文字数:1501 字

    阅读完需:约 5 分钟

大小:456.83K时长:02:35
文心大模型4.5系列正式开源,涵盖10余款模型

6 月 30 日,百度正式开源文心大模型 4.5 系列模型,涵盖 47B、3B 激活参数的混合专家(MoE)模型,与 0.3B 参数的稠密型模型等 10 款模型,并实现预训练权重和推理代码的完全开源。

 

目前,文心大模型 4.5 开源系列已可在飞桨星河社区、HuggingFace 等平台下载部署使用,系列权重按照 Apache 2.0 协议开源,同时开源模型 API 服务也可在百度智能云千帆大模型平台使用。值得关注的是,此次文心大模型 4.5 系列开源后,百度实现了框架层与模型层的“双层开源”。

 

相关链接:

https://huggingface.co/models?other=ERNIE4.5

https://aistudio.baidu.com/modelsoverview

 


早在今年 2 月,百度就已预告了文心大模型 4.5 系列的推出计划,并明确将于 6 月 30 日起正式开源。

 

文心大模型 4.5 是百度于 2025 年 3 月 16 日发布的新一代多模态基础大模型,属于百度人工智能核心产品体系的重要升级版本。此次百度一次性推出 10 款文心大模型 4.5 系列开源模型,在独立自研模型数量占比、模型类型数量、参数丰富度、开源宽松度与可靠性等关键维度上,均处于行业领先位置。

 


据介绍,ERNIE 4.5 型号(尤其是基于 MoE 的 A47B 和 A3B 系列)的先进功能由几项关键技术创新支撑:

 

  • 多模态异构 MoE 预训练。基于文本与视觉模态进行训练,更精准捕捉多模态信息的细微差异,从而提升文本理解生成、图像理解及跨模态推理等任务性能。为避免模态间学习相互干扰,百度团队设计了异构 MoE 结构,并引入了模态隔离路由机制,采用路由正交损失与多模态 token 均衡损失双重优化。这些架构设计确保两种模态特征均得到高效表征,从而在训练过程中实现相互强化。

 

  • 可扩展高效的基础设施。百度团队提出了一种新异构混合并行和分层负载均衡策略,以实现 ERNIE 4.5 模型的高效训练。通过采用节点内专家并行、内存优化流水线调度、FP8 混合精度训练和细粒度重计算方法,显著提升预训练吞吐量。在推理方面,提出了多专家并行协作方法和卷积码量化算法,以实现 4-bit/2-bit 无损量化。此外,团队还引入了具有动态角色切换的 PD 分解,以有效利用资源,从而提升 ERNIE 4.5 MoE 模型的推理性能。基于 PaddlePaddle 构建的 ERNIE 4.5 可在各种硬件平台上提供高性能推理。

 

  • 针对特定模态的后训练。为了满足实际应用的多样化需求,团队针对特定模态对预训练模型的变体进行了微调,并针对通用语言理解和生成进行了优化。VLM 专注于视觉语言理解,并支持思考和非思考模式。每个模型都结合使用了监督微调 (SFT) 、 直接偏好优化 (DPO) 或一种名为统一偏好优化 (UPO) 的改进强化学习方法进行后训练。

 

此外,文心大模型 4.5 开源系列均使用飞桨深度学习框架进行高效训练、推理和部署。在大语言模型的预训练中,模型 FLOPs 利用率(MFU)达到 47%。实验结果显示,其系列模型在多个文本和多模态基准测试中达到 SOTA 水平,尤其在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果突出。

 

百度表示,在文本模型方面,文心大模型 4.5 开源系列基础能力强、事实准确性高、指令遵循能力强、推理和编程能力出色,在多个主流基准评测中超越 DeepSeek-V3、Qwen3 等模型。在多模态模型方面,文心大模型 4.5 开源系列拥有卓越的视觉感知能力,同时精通丰富视觉常识,并实现了思考与非思考统一,在视觉常识、多模态推理、视觉感知等主流的多模态大模型评测中优于闭源的 OpenAI o1。此外,在轻量模型上,文心 4.5-21B-A3B-Base 文本模型效果与同量级的 Qwen3 相当,文心 4.5-VL-28B-A3B 多模态模型也是目前同量级最好的多模态开源模型,甚至与更大参数模型 Qwen2.5-VL-32B 不相上下。



文心 4.5 预训练模型在主流基准测试中表现



 文心 4.5-300B-A47B 模型在主流基准测试中表现




文心多模态后训练模型(支持思考、关闭思考)的多个多模态基准测试

2025-06-30 10:453418

评论

发布
暂无评论

王霸雄图荣华敝屣,谈笑间尽归尘土|基于Python3双队列数据结构搭建股票/外汇交易匹配撮合系统

刘悦的技术博客

数据结构 算法 Python3 匹配 股票系统

JVM 读书笔记(二) 垃圾收集

U2647

JVM 4月日更

免费开源增强版 Elasticsearch 分支 OpenSearch 项目上线!现邀您加入开源社区!

亚马逊云科技 (Amazon Web Services)

悟透前端:JavaScript ES6模块的导入导出

devpoint

ES6 export export default

【论文分享】Presto: SQL on Everything(一)

小舰

4月日更

什么情况下要招人?

石云升

团队建设 28天写作 职场经验 管理经验 4月日更

面向软件 IT 专业的高校大学生付费学习现状问卷调研

Albert

4月日更

浪潮云洲链接入“星火•链网”,走向工业互联网的星辰大海

云计算

恒源云_Gpushare.com | RTX 3090独家训练实录:MMDetectionV2 + ResNeSt

恒源云

人工智能 深度学习 gpu CV nlp

Oracle LogMiner 数据迁移实战

yintianwen

Java 数据库 后端 数据迁移 LogMiner

百度C++工程师的那些极限优化(内存篇)

百度Geek说

c++ C# 内存访问

图解 Docker 架构

xcbeyond

Docker 容器 4月日更

Ask Me Anything #1 我是新晋CNCF TOC张磊,你有什么想问我的?

阿里巴巴云原生

容器 开发者 运维 云原生 k8s

连续三年入围 Gartner 容器竞争格局,阿里云容器服务新布局首次公开

阿里巴巴中间件

头条观察 | 从比特币的角度理解牛市暴跌

CECBC

比特币

在数字化迁徙浪潮中,数据可信、数据共享、数据隐私安全缺一不可!

CECBC

大数据

对话亚马逊云科技 WWSO 团队四位大咖,给你讲讲他们的职场故事~

亚马逊云科技 (Amazon Web Services)

websocket简析

风翱

websocket 4月日更

新疆重点人员管控平台搭建,可视化大屏

Redis学习01

Hex

Redis 核心技术与实战

如何从零开始学Python:(6)如何创建模块并运行?

广之巅

Python 4月日更

IPFS云算力挖矿系统开发|Filecoin算力挖矿搭建

薇電13242772558

区块链 存储

借力云原生,预见医学影像“云阅片”和电子胶片的未来 | 精选案例

亚马逊云科技 (Amazon Web Services)

低代码与数字化校园应用案例:2周时间构建50+应用,直呼过瘾!

优秀

低代码 数字化校园

拒绝假货!LVMH与普拉达、卡地亚联手推出区块链平台AURA

CECBC

区块链“进军”文娱产业将碰撞出哪些火花?

CECBC

娱乐

重读《重构2》- 搬移函数

顿晓

重构 4月日更

恒源云_Gpushare.com | 三步搞定GPU免费云端训练!

恒源云

人工智能 深度学习 gpu CV nlp

什么是产品思维和产品意识?——课程总结

Deborah

Android Camera开发系列:设置对焦模式模式

小驰笔记

Camera; Android;

算法题目解析:从一道题目看动态规划

程序员架构进阶

算法 动态规划 28天写作 4月日更

文心大模型4.5系列正式开源,涵盖10余款模型_AI&大模型_褚杏娟_InfoQ精选文章