10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

尺寸更小、性能更强,阿里国际升级开源多模态大模型 Ovis2.5

作者:阿里国际

  • 2025-08-26
    北京
  • 本文字数:1486 字

    阅读完需:约 5 分钟

大小:735.69K时长:04:11
尺寸更小、性能更强,阿里国际升级开源多模态大模型Ovis2.5

看图能解高中函数题,能分析物流单和发票这样的复杂图表,还能根据风景照片推测出拍摄地点,多模态理解、推理能力再次迎来突破。近日,阿里国际 AI 团队发布多模态大模型 Ovis2.5,在通用多模态基准、复杂图表理解与 OCR 等实际应用场景,Ovis2.5 均展现出领先的理解与推理能力。


在主流多模态评测套件 OpenCompass 上,Ovis2.5-9B 综合得分 78.3,超越众多更大参数量的模型,在 40B 以下参数规模的开源模型中位居前茅;Ovis2.5-2B 综合得分 73.9,延续了 Ovis 系列小尺寸、高性能的理念,在同尺寸模型中性能显著领先。


Ovis2.5-9B 在多个 benchmark 上取得了同尺寸开源最佳性能,Ovis2.5-2B 在很小的模型尺寸下也展现了优异的性能


相比 Ovis2 等早期版本, 升级版的 Ovis2.5 在处理复杂图表、数学题推理、知识储备等方面都有亮眼表现。例如,Ovis2.5 可以看图求解函数题、看风景照片分析地点并找到应景的古诗。


Ovis2.5 数学推理能力示例


Ovis2.5 复杂图表分析能力示例


Ovis2.5 知识能力示例


Ovis2.5 定位能力示例


具体来说,Ovis2.5 有三方面的能力进化:


1、看图更完整,不需要“先切分再合并”


在 Ovis2 及早期版本中,高分辨率图片需要通过“切图-拼接”处理,这往往导致整体结构与细节信息的损失。为解决这一问题,Ovis2.5 集成了原生分辨率视觉编码器(NaViT),能够直接处理任意原生分辨率的图像,让模型真正做到“完整看图”。无论是宏观布局还是微小文字细节,都能精准捕捉,为复杂场景下的深度推理奠定坚实基础。


2、深度推理“思考模式”,能自我检查与修正


Ovis2.5 融入了包含自我检查与修正环节的长链思考训练,使模型能够在解决问题时进行自我反思。在推理时,用户可以选择开启“思考模式”:模型会生成中间步骤,主动检视并修正推理过程,从而在数学题求解、复杂图表等高难度任务中获得更高的准确率。这一机制提供了延迟与精度的灵活权衡,用户可根据需求自由切换。


3、攻克复杂图表难题


复杂图表理解一直是多模态领域的“硬骨头”,大量噪声和密集的视觉信息给模型带来了巨大挑战。Ovis2.5 针对这一痛点,从三个层面进行了系统性增强:

  • 数据端:新增了海量高质量的图表、OCR、Grounding 数据。

  • 视觉端:利用原生分辨率编码器,准确全面地理解图表中的元素。

  • 推理端:结合深度思考能力,对图表中的数据和逻辑关系进行精准分析。


在模型尺寸较小的情况下,Ovis2.5 实现了性能与效率的双重突破,在端侧和资源受限的场景下能发挥出“小身板、大能量” 的效果。据悉,Ovis 累计下载量超 280 万,在多模态领域最近一个月下载量仅次于 QwenVL 模型。


在 AI 领域,具有推理能力的多模态大模型应用场景特别广泛。例如,在快递分拣场景,能够识别快递面单照片上的订单号、收件地址等各种信息,并遵循指令以 JSON 格式输出,提升物流效率;在自动驾驶场景,能够处理不同模态的信息,精准感知环境、作出决策。随着人工智能的发展,大模型的多模态理解能力、推理能力升级也逐渐成为行业趋势。


据此前报道,阿里国际 AI Business 团队成立于 2023 年,基于全球化电商场景探索 AI 技术。目前,阿里国际的所有电商平台均已应用 AI,已服务了超 50 万卖家,形成了以服务中小企业出海为核心,覆盖全球多元市场、多种电商模式的规模级 AI 应用。当下,阿里国际 AI 服务的调用量每两个月就会翻一番,截至 2025 年 7 月,平均日调用量已突破 10 亿次。


附相关链接:

技术报告:https://arxiv.org/abs/2508.11737

代码: https://github.com/AIDC-AI/Ovis

9B 模型: https://huggingface.co/AIDC-AI/Ovis2.5-9B

2B 模型: https://huggingface.co/AIDC-AI/Ovis2.5-2B

9B Demo: https://huggingface.co/spaces/AIDC-AI/Ovis2.5-9B

2B Demo: https://huggingface.co/spaces/AIDC-AI/Ovis2.5-2B

2025-08-26 11:301

评论

发布
暂无评论

如何将文本转换为向量?(方法二)

DashVector

人工智能 数据库 大模型 向量检索服务

如何将文本转换为向量?(方法三)

DashVector

数据库 向量检索 大模型

数据资产入表:解锁企业价值新蓝海

郑州埃文科技

数据治理 数据要素 数据资产入表

程序员喜欢的7个免费公共API

幂简集成

API 免费API

水底下的云

脑极体

云计算

斥巨资给自己买了个礼物,程序员专用显示器真香

王中阳Go

显示器 #程序员

云服务应用就在828,精准优化企业管理,华为云Flexus X实例有你好看!

YG科技

云计算优化震撼828,华为云Flexus X实例邀请您分享数字化转型红利

YG科技

数据工程(四)数据架构设计:连接数据与战略,驱动业务增长

数造万象

数据架构 数字化 数据工程

2024巴黎奥运会:中国战绩报告分析

搞大屏的小北

数据分析 巴黎奥运会 中国队 金牌 奖牌

大数据时代来袭,那么工程领域的数据科学如何成为行业的新超级英雄呢

Altair RapidMiner

人工智能 设计 仿真 altair

基于51单片机设计的计算器

DS小龙哥

8月月更

高性能无锁队列 Disruptor 核心原理分析及其在i主题业务中的应用

vivo互联网技术

Disruptor 无锁 伪共享 内存队列 CPU Cache

京东集团项目管理人才发展通道代表受邀参加第三届中国PMO&PM大会

京东零售技术

企业号2024年8月PK榜

亚马逊Amazon商品详情API接口(主图|SKU|标题|价格|库存)

tbapi

亚马逊 亚马逊商品详情接口 亚马逊API接口 亚马孙商品数据采集

检索增强生成 (RAG),AI届的新星“厨师”

澳鹏Appen

rag 检索增强生成

人工智能 | 打造领域专属的大语言模型

测吧(北京)科技有限公司

测试

百度冯景辉:从数据清洗到安全围栏,深度解析大模型原生安全构建

百度安全

Java Agent 开发初探

FunTester

使用PAI × LLaMA Factory 微调 Llama3 模型

阿里云大数据AI技术

人工智能 模型训练 LLM PAI

LLM活动 | 与UP主“老陈打码”一起使用PAI×LLaMA Factory搭建AI诸葛亮

阿里云大数据AI技术

人工智能 阿里云 AIGC LLM PAI

尺寸更小、性能更强,阿里国际升级开源多模态大模型Ovis2.5_AI&大模型_InfoQ精选文章