写点什么

文心大模型 4.5 系列正式开源,涵盖 10 余款模型

  • 2025-06-30
    北京
  • 本文字数:1501 字

    阅读完需:约 5 分钟

大小:456.83K时长:02:35
文心大模型4.5系列正式开源,涵盖10余款模型

6 月 30 日,百度正式开源文心大模型 4.5 系列模型,涵盖 47B、3B 激活参数的混合专家(MoE)模型,与 0.3B 参数的稠密型模型等 10 款模型,并实现预训练权重和推理代码的完全开源。

 

目前,文心大模型 4.5 开源系列已可在飞桨星河社区、HuggingFace 等平台下载部署使用,系列权重按照 Apache 2.0 协议开源,同时开源模型 API 服务也可在百度智能云千帆大模型平台使用。值得关注的是,此次文心大模型 4.5 系列开源后,百度实现了框架层与模型层的“双层开源”。

 

相关链接:

https://huggingface.co/models?other=ERNIE4.5

https://aistudio.baidu.com/modelsoverview

 


早在今年 2 月,百度就已预告了文心大模型 4.5 系列的推出计划,并明确将于 6 月 30 日起正式开源。

 

文心大模型 4.5 是百度于 2025 年 3 月 16 日发布的新一代多模态基础大模型,属于百度人工智能核心产品体系的重要升级版本。此次百度一次性推出 10 款文心大模型 4.5 系列开源模型,在独立自研模型数量占比、模型类型数量、参数丰富度、开源宽松度与可靠性等关键维度上,均处于行业领先位置。

 


据介绍,ERNIE 4.5 型号(尤其是基于 MoE 的 A47B 和 A3B 系列)的先进功能由几项关键技术创新支撑:

 

  • 多模态异构 MoE 预训练。基于文本与视觉模态进行训练,更精准捕捉多模态信息的细微差异,从而提升文本理解生成、图像理解及跨模态推理等任务性能。为避免模态间学习相互干扰,百度团队设计了异构 MoE 结构,并引入了模态隔离路由机制,采用路由正交损失与多模态 token 均衡损失双重优化。这些架构设计确保两种模态特征均得到高效表征,从而在训练过程中实现相互强化。

 

  • 可扩展高效的基础设施。百度团队提出了一种新异构混合并行和分层负载均衡策略,以实现 ERNIE 4.5 模型的高效训练。通过采用节点内专家并行、内存优化流水线调度、FP8 混合精度训练和细粒度重计算方法,显著提升预训练吞吐量。在推理方面,提出了多专家并行协作方法和卷积码量化算法,以实现 4-bit/2-bit 无损量化。此外,团队还引入了具有动态角色切换的 PD 分解,以有效利用资源,从而提升 ERNIE 4.5 MoE 模型的推理性能。基于 PaddlePaddle 构建的 ERNIE 4.5 可在各种硬件平台上提供高性能推理。

 

  • 针对特定模态的后训练。为了满足实际应用的多样化需求,团队针对特定模态对预训练模型的变体进行了微调,并针对通用语言理解和生成进行了优化。VLM 专注于视觉语言理解,并支持思考和非思考模式。每个模型都结合使用了监督微调 (SFT) 、 直接偏好优化 (DPO) 或一种名为统一偏好优化 (UPO) 的改进强化学习方法进行后训练。

 

此外,文心大模型 4.5 开源系列均使用飞桨深度学习框架进行高效训练、推理和部署。在大语言模型的预训练中,模型 FLOPs 利用率(MFU)达到 47%。实验结果显示,其系列模型在多个文本和多模态基准测试中达到 SOTA 水平,尤其在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果突出。

 

百度表示,在文本模型方面,文心大模型 4.5 开源系列基础能力强、事实准确性高、指令遵循能力强、推理和编程能力出色,在多个主流基准评测中超越 DeepSeek-V3、Qwen3 等模型。在多模态模型方面,文心大模型 4.5 开源系列拥有卓越的视觉感知能力,同时精通丰富视觉常识,并实现了思考与非思考统一,在视觉常识、多模态推理、视觉感知等主流的多模态大模型评测中优于闭源的 OpenAI o1。此外,在轻量模型上,文心 4.5-21B-A3B-Base 文本模型效果与同量级的 Qwen3 相当,文心 4.5-VL-28B-A3B 多模态模型也是目前同量级最好的多模态开源模型,甚至与更大参数模型 Qwen2.5-VL-32B 不相上下。



文心 4.5 预训练模型在主流基准测试中表现



 文心 4.5-300B-A47B 模型在主流基准测试中表现




文心多模态后训练模型(支持思考、关闭思考)的多个多模态基准测试

2025-06-30 10:45131

评论

发布
暂无评论

在线正则表达式可视化工具

入门小站

工具

如何与同事相处

escray

学习 极客时间 朱赟的技术管理课 7月日更

从家里到阿里,学弟求职的一年

程序员鱼皮

Java 数据库 redis 面试 求职

Vue进阶(十八):router.beforeEach 与 router.afterEach 钩子函数

No Silver Bullet

Vue 钩子函数 路由 7月日更

企业架构师的职业发展

在天涯的海角

架构师 职业发展 企业架构师

强强联手:2021强网杯LongTimeAgo复盘分析

网络安全学海

网络安全 信息安全 渗透测试 漏洞扫描 强网杯

Python OpenCV 图像的二值化操作再次学习与图像平滑处理(卷积处理)

梦想橡皮擦

Python 7月日更

Python 正则表达式急速入门

喵叔

7月日更

详解轻量日志聚合系统Loki架构

运维研习社

Grafana 日志系统 Loki

第九课作业

杰语

做大做强肉牛产业,生物资产解决方案助力乡村振兴

CECBC

网络攻防学习笔记 Day84

穿过生命散发芬芳

网络攻防 7月日更

使用Apache Spark构建可靠的数据湖(九)

Databri_AI

spark Data Lake iceberg Hudi

Java为什么用迭代器

卢卡多多

7月日更

JVM知识整理

十二万伏特皮卡丘

JVM

这份Java面试八股文让329人成功进入大厂,堪称2021最强

北游学Java

Java 面试

2021年WEB全栈开发技术栈

devpoint

Vue 全栈 7月日更

Redis - 配置文件

旺仔大菜包

redis

Linux之grep命令

入门小站

Linux

Vue进阶(六):组件之间的数据传递

No Silver Bullet

Vue 组件 7月日更 数据传递

程序员必备技能之SpringBoot的自动装配原理,很详细,建议收藏!!!

AI乔治

Java spring 架构 微服务 springboot

Go语言:指针和unsafe.Pointer有什么区别?

微客鸟窝

Go 语言

[翻译] InnoDB 空间文件中的页面管理

keaper

MySQL 数据库 后端 服务端 innodb

[翻译] 使用 innodb_ruby 探索 InnoDB 的页面管理

keaper

MySQL 数据库 后端 服务端 innodb

golang学习之路--内存分配器

en

内存 Go 语言

实战架构营模块三作业-外包学生管理系统架构设计

王晓宇

架构实战营 - 模块 9- 作业

请弄脏我的身体

架构实战营

Apache Druid 安装的时候进行 Java 版本校验没有输出

HoneyMoose

细说节流(Throttle)和防抖(Debounce)

devpoint

防抖 节流 7月日更

Seldon 使用 (四):内置的推理服务TFServing

托内多

tensorflow kubeflow seldon tfserving

[翻译] InnoDB 空间文件布局基础

keaper

MySQL 数据库 后端 服务端 innodb

文心大模型4.5系列正式开源,涵盖10余款模型_AI&大模型_褚杏娟_InfoQ精选文章