2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

尺寸更小、性能更强,阿里国际升级开源多模态大模型 Ovis2.5

作者:阿里国际

  • 2025-08-26
    北京
  • 本文字数:1486 字

    阅读完需:约 5 分钟

大小:735.69K时长:04:11
尺寸更小、性能更强,阿里国际升级开源多模态大模型Ovis2.5

看图能解高中函数题,能分析物流单和发票这样的复杂图表,还能根据风景照片推测出拍摄地点,多模态理解、推理能力再次迎来突破。近日,阿里国际 AI 团队发布多模态大模型 Ovis2.5,在通用多模态基准、复杂图表理解与 OCR 等实际应用场景,Ovis2.5 均展现出领先的理解与推理能力。


在主流多模态评测套件 OpenCompass 上,Ovis2.5-9B 综合得分 78.3,超越众多更大参数量的模型,在 40B 以下参数规模的开源模型中位居前茅;Ovis2.5-2B 综合得分 73.9,延续了 Ovis 系列小尺寸、高性能的理念,在同尺寸模型中性能显著领先。


Ovis2.5-9B 在多个 benchmark 上取得了同尺寸开源最佳性能,Ovis2.5-2B 在很小的模型尺寸下也展现了优异的性能


相比 Ovis2 等早期版本, 升级版的 Ovis2.5 在处理复杂图表、数学题推理、知识储备等方面都有亮眼表现。例如,Ovis2.5 可以看图求解函数题、看风景照片分析地点并找到应景的古诗。


Ovis2.5 数学推理能力示例


Ovis2.5 复杂图表分析能力示例


Ovis2.5 知识能力示例


Ovis2.5 定位能力示例


具体来说,Ovis2.5 有三方面的能力进化:


1、看图更完整,不需要“先切分再合并”


在 Ovis2 及早期版本中,高分辨率图片需要通过“切图-拼接”处理,这往往导致整体结构与细节信息的损失。为解决这一问题,Ovis2.5 集成了原生分辨率视觉编码器(NaViT),能够直接处理任意原生分辨率的图像,让模型真正做到“完整看图”。无论是宏观布局还是微小文字细节,都能精准捕捉,为复杂场景下的深度推理奠定坚实基础。


2、深度推理“思考模式”,能自我检查与修正


Ovis2.5 融入了包含自我检查与修正环节的长链思考训练,使模型能够在解决问题时进行自我反思。在推理时,用户可以选择开启“思考模式”:模型会生成中间步骤,主动检视并修正推理过程,从而在数学题求解、复杂图表等高难度任务中获得更高的准确率。这一机制提供了延迟与精度的灵活权衡,用户可根据需求自由切换。


3、攻克复杂图表难题


复杂图表理解一直是多模态领域的“硬骨头”,大量噪声和密集的视觉信息给模型带来了巨大挑战。Ovis2.5 针对这一痛点,从三个层面进行了系统性增强:

  • 数据端:新增了海量高质量的图表、OCR、Grounding 数据。

  • 视觉端:利用原生分辨率编码器,准确全面地理解图表中的元素。

  • 推理端:结合深度思考能力,对图表中的数据和逻辑关系进行精准分析。


在模型尺寸较小的情况下,Ovis2.5 实现了性能与效率的双重突破,在端侧和资源受限的场景下能发挥出“小身板、大能量” 的效果。据悉,Ovis 累计下载量超 280 万,在多模态领域最近一个月下载量仅次于 QwenVL 模型。


在 AI 领域,具有推理能力的多模态大模型应用场景特别广泛。例如,在快递分拣场景,能够识别快递面单照片上的订单号、收件地址等各种信息,并遵循指令以 JSON 格式输出,提升物流效率;在自动驾驶场景,能够处理不同模态的信息,精准感知环境、作出决策。随着人工智能的发展,大模型的多模态理解能力、推理能力升级也逐渐成为行业趋势。


据此前报道,阿里国际 AI Business 团队成立于 2023 年,基于全球化电商场景探索 AI 技术。目前,阿里国际的所有电商平台均已应用 AI,已服务了超 50 万卖家,形成了以服务中小企业出海为核心,覆盖全球多元市场、多种电商模式的规模级 AI 应用。当下,阿里国际 AI 服务的调用量每两个月就会翻一番,截至 2025 年 7 月,平均日调用量已突破 10 亿次。


附相关链接:

技术报告:https://arxiv.org/abs/2508.11737

代码: https://github.com/AIDC-AI/Ovis

9B 模型: https://huggingface.co/AIDC-AI/Ovis2.5-9B

2B 模型: https://huggingface.co/AIDC-AI/Ovis2.5-2B

9B Demo: https://huggingface.co/spaces/AIDC-AI/Ovis2.5-9B

2B Demo: https://huggingface.co/spaces/AIDC-AI/Ovis2.5-2B

2025-08-26 11:304219

评论

发布
暂无评论

视频批量采集下载工具|短视频提取软件

Geek_16d138

短视频 爬虫工具 爬虫技术

姑苏寻韵~庆开放原子开源大赛 OpenTiny 前端 Web 应用开发挑战赛路演圆满落幕。

OpenTiny社区

开源 前端 低代码 组件库

支付系统概述(九):外汇系统

agnostic

支付系统设计与实现

Pandabuy淘宝代购集运系统类似软件是哪家公司开发的?

tbapi

淘宝代购系统 淘宝代购集运系统 Pandabuy

《JAVA多线程设计模式》PDF

程序员李木子

国产化里程碑:明道云HAP私有部署版获信创评估证书,荣登会员单位

明道云

明道云HAP合作伙伴计划全解析:开辟业务增长新路径

明道云

短视频评论ID采集提取软件|评论关键词下载爬取工具

Geek_16d138

短视频获客 爬虫工具 爬虫技术

HagoBuy淘宝代购集运系统类似软件是哪家公司开发的?

tbapi

淘宝代购系统

【实时更新】天猫商品详情数据接口采集揭秘!

tbapi

淘宝商品详情数据接口 天猫API接口 天猫商品详情接口 天猫商品数据采集

FeignClient从默认的httpClient升级为okhttpclient踩坑记录

追随月光的战士

k8s Wireshark Spring boot Feign 404

鸿蒙HarmonyOS实战-ArkUI组件(Button)

蜀道山

鸿蒙 HarmonyOS 鸿蒙开发 button arkui

华为Pura 70系列,一种关于世界之美的可能

脑极体

AI 手机

如何安全、高速、有效地利用IP代理爬取数据

陈老老老板

支付系统概述(八):用户资产管理

agnostic

支付系统设计与实现

超级效率神器:一按键盘,翻阅网页如履平地!

wudaxue

短视频批量下载提取软件功能|采集下载工具

Geek_16d138

短视频获客 爬虫工具

Vue.js 如何在Vue应用中导入wasm文件

Changing Lin

Vue 前端

superbuy淘宝代购集运系统类似软件是哪家公司开发的?

tbapi

淘宝代购系统 superbuy

机器狗巡视功能PRD

执于业务

Vben-admin 修改Primary Color

麦兜

尺寸更小、性能更强,阿里国际升级开源多模态大模型Ovis2.5_AI&大模型_InfoQ精选文章