硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

百度智能云 Qianfan-VL 系列模型重磅开源:使用昆仑芯计算,多尺寸领域能力增强

  • 2025-09-22
    北京
  • 本文字数:1681 字

    阅读完需:约 6 分钟

大小:885.03K时长:05:02
百度智能云Qianfan-VL系列模型重磅开源:使用昆仑芯计算,多尺寸领域能力增强

9 月 22 日,百度智能云千帆正式推出全新视觉理解模型——Qianfan-VL,并全面开源。据悉,该系列视觉理解大模型面向企业级多模态应用场景进行了深度优化,如 OCR 和教育垂直场景,主要包含 3B、8B 和 70B 三个尺寸版本。即日起至 10 月 10 日,用户可在百度智能云千帆平台免费体验 8B、70B 模型。

 

相关链接:

https://huggingface.co/baidu/Qianfan-VL-8B

 

Qianfan-VL 系列模型是由百度智能云千帆模型研发团队,基于开源模型进行开发,并在百度自研昆仑芯 P800 上完成全流程计算任务。昆仑芯 P800 提供了强大的算力支撑,确保模型能够高效处理海量数据与复杂算法,同时支持单任务 5000 卡规模的并行计算。这一结合不仅优化了模型计算的效率,更使得模型在性能表现上达到了新的高度,在通用和垂类任务评测中展现出 SOTA 水平。Qianfan-VL 模型具备三大特点:

 

  • 多尺寸模型满足不同场景需求:提供 3B、8B、70B 三种规格的模型,让不同规模的企业和开发者都能找到合适的解决方案。

  • 提供思考推理能力:8B 和 70B 模型支持通过特殊 token 激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多种场景。

  • OCR 与文档理解能力增强:主打 OCR 全场景识别和复杂版面文档理解两大特色能力,在多项基准测试中表现优异,为企业级应用提供高精度的视觉理解解决方案。

 

模型性能与效果

 

(1)通用能力基准测试表现

 

在通用能力基准测试中,Qianfan-VL 系列模型(3B、8B、70B)展现出显著核心优势。从视觉理解到专业领域问答,模型性能随参数规模增大提升显著,体现出很好的 Scaling 趋势。在 ScienceQA 等专业问答测试中,精准度表现突出;多模态任务如 RefCOCO 等,物体识别与关联能力优异;同时,在各类通用基准测试里,相较主流模型,整体表现也颇为亮眼。



(2)OCR 与文档理解基准测试表现

 

Qianfan-VL 系列模型(3B、8B、70B)在 OCR 与文档理解领域尽显卓越实力。一方面,具备 OCR 全场景识别能力,能精准识别手写体、数学公式、自然场景文字,还可对卡证票据信息进行结构化提取;另一方面,复杂版面文档理解能力突出,可自动分析版面元素,精准解析表格、图表,实现文档智能问答与结构化解析。从基准测试表现看,在 OCRBench、各类专业测试中,相较于主流模型,成绩优异且随参数规模提升持续向好,可为企业级应用提供了高精度的视觉理解解决方案。

 


(3)数学解题基准测试表现

 

Qianfan-VL 系列的 8B 和 70B 模型,在思考推理能力方面表现卓越。它们支持通过特殊 token 激活思维链能力,能覆盖复杂图表理解、视觉推理、数学解题等多类场景。这类任务需结合视觉信息与外部知识进行组合推理,而模型通过融合大量视觉类、文本类推理数据并用于后训练,从 benchmark 表现来看,推理计算相关任务效果显著提升。

 

在核心推理应用场景上,复杂图表理解与推理方面,可从复杂图表提取关键信息,进行数据分析、趋势预测、关联推理及统计计算;数学解题与视觉推理领域,能实现几何推理、公式识别、分步求解与逻辑推断。从数学解题基准测试表现看,在 MathVista-mini、MathVision 等多项测试中,相较于主流模型,成绩优异且随参数规模提升持续向好,能为复杂推理场景下的应用提供有效支持。

 


模型架构设计与技术特色

 

Qianfan-VL 通过先进的多模态架构设计,凭借持续预训练和三大技术创新,实现了领域增强的通用视觉-语言能力。



整体架构

 

  • 能力增强训练方案:创新的四阶段训练策略,在保持通用能力基础上实现领域能力显著提升

  • 高精度数据合成管线:构建面向多模态任务的大规模数据合成管线,涵盖文档识别、数学解题、图表理解、表格识别、公式识别、自然场景 OCR 等核心任务,通过精细化的管线设计和中间过程数据构造,实现高质量训练数据的规模化生产。

  • 昆仑芯驱动大模型高效计算:基于百度自研昆仑芯 P800 芯片,构建了业界领先的超大规模(5000 卡)分布式计算系统,通过创新的并行策略和算子优化,显著提升大模型任务的处理性能与运行效率。

 

下面是官方展示的一些模型应用案例。

 

  • OCR 识别场景


 

  • 数学推理场景



  • 文档理解场景



百度智能云千帆表示,Qianfan-VL 系列模型的开源,更像是其“把模型放进真实生产力场景”的第一小步,未来还将不断推出全新的产业级模型,全方位助力 AI 技术在各行业落地。

2025-09-22 18:194333

评论

发布
暂无评论

如何通过众包应用本地化获得 500 万次下载?

葛仲君

android 翻译 本地化 产品开发 Play商店

ARTS week3

丽子

某二手交易平台大数据平台从 0 到 1 演进与实践

奈学教育

区块链能够防伪?你彷佛有什么误解!

CECBC

CECBC 区块链技术 商品溯源 防伪

Spring 源码学习 - 单例bean的实例化过程

Geek_k6ry2n

Pycharm社区版安装教程(永久免费,随时升级)

早睡蟒

彻底搞懂 etcd 系列文章(一):初识 etcd

aoho

架构 云原生 etcd

像运营公司一样去做产品

胖鱼2号

创业 产品 产品经理 企业

我体验了一把自由职业,比 996 苦多了...

非著名程序员

创业 程序员 自由职业 创业心态

JDK 8,该离开的时候,请别留恋!

X.F

Java 架构 编程语言 Java 25 周年

原创 | TDD工具集:JUnit、AssertJ和Mockito (十九)编写测试-依赖注入\测试接口\重复测试

编程道与术

Java 编程 TDD 单元测试 JUnit

修改git里commit信息用户名

张张张小烦

江湖事儿 | 技术人如何做好晋升准备

哈利迪

android 职业成长

ARTS - Week Three

shepherd

开源 互联网 算法

日志过滤

HU

ARTS|Week 02:体会刷算法题的快乐,同时开启Ubuntu 20.04备用系统

MiracleWong

算法 ARTS 打卡计划

怎样成为解决问题的高手

落曦

程序员可迁移技能的培养

MavenTalker

程序员

架构师应该具备哪些思维模型?

奈学教育

架构师

单例模式详解

章小传

Java 单例模式

一文带你了解 Kafka 原理

苹果看辽宁体育

kafka

[kube 022] 混沌测试框架-Litmus

zbyufei

Kubernetes 云原生 混沌工程 Litmus litmuschaos

ARTS|Week 2 PlantUML 的学习和分享

Puran

LeetCode arts PlantUML

ARTS Week2

时之虫

ARTS 打卡计划

真诚的回报

zhoo299

生活 随想

npm常用命令

阡陌r

Vue

彻底搞懂 etcd 系列文章(三):etcd 集群运维部署

aoho

架构 云原生 etcd

2020年6月5日 继承

瑞克与莫迪

游戏夜读 | 神话故事和世界观

game1night

Go: Go 调度器的任务窃取(Work-Stealing)

陈思敏捷

源码分析 原理 队列 Go 语言

硬不硬你说了算!近 40 张图解被问千百遍的 TCP 三次握手和四次挥手面试题

小林coding

面试 TCP 网络安全 网络编程 计算机网络

百度智能云Qianfan-VL系列模型重磅开源:使用昆仑芯计算,多尺寸领域能力增强_AI&大模型_褚杏娟_InfoQ精选文章