写点什么

尺寸更小、性能更强,阿里国际升级开源多模态大模型 Ovis2.5

作者:阿里国际

  • 2025-08-26
    北京
  • 本文字数:1486 字

    阅读完需:约 5 分钟

大小:735.69K时长:04:11
尺寸更小、性能更强,阿里国际升级开源多模态大模型Ovis2.5

看图能解高中函数题,能分析物流单和发票这样的复杂图表,还能根据风景照片推测出拍摄地点,多模态理解、推理能力再次迎来突破。近日,阿里国际 AI 团队发布多模态大模型 Ovis2.5,在通用多模态基准、复杂图表理解与 OCR 等实际应用场景,Ovis2.5 均展现出领先的理解与推理能力。


在主流多模态评测套件 OpenCompass 上,Ovis2.5-9B 综合得分 78.3,超越众多更大参数量的模型,在 40B 以下参数规模的开源模型中位居前茅;Ovis2.5-2B 综合得分 73.9,延续了 Ovis 系列小尺寸、高性能的理念,在同尺寸模型中性能显著领先。


Ovis2.5-9B 在多个 benchmark 上取得了同尺寸开源最佳性能,Ovis2.5-2B 在很小的模型尺寸下也展现了优异的性能


相比 Ovis2 等早期版本, 升级版的 Ovis2.5 在处理复杂图表、数学题推理、知识储备等方面都有亮眼表现。例如,Ovis2.5 可以看图求解函数题、看风景照片分析地点并找到应景的古诗。


Ovis2.5 数学推理能力示例


Ovis2.5 复杂图表分析能力示例


Ovis2.5 知识能力示例


Ovis2.5 定位能力示例


具体来说,Ovis2.5 有三方面的能力进化:


1、看图更完整,不需要“先切分再合并”


在 Ovis2 及早期版本中,高分辨率图片需要通过“切图-拼接”处理,这往往导致整体结构与细节信息的损失。为解决这一问题,Ovis2.5 集成了原生分辨率视觉编码器(NaViT),能够直接处理任意原生分辨率的图像,让模型真正做到“完整看图”。无论是宏观布局还是微小文字细节,都能精准捕捉,为复杂场景下的深度推理奠定坚实基础。


2、深度推理“思考模式”,能自我检查与修正


Ovis2.5 融入了包含自我检查与修正环节的长链思考训练,使模型能够在解决问题时进行自我反思。在推理时,用户可以选择开启“思考模式”:模型会生成中间步骤,主动检视并修正推理过程,从而在数学题求解、复杂图表等高难度任务中获得更高的准确率。这一机制提供了延迟与精度的灵活权衡,用户可根据需求自由切换。


3、攻克复杂图表难题


复杂图表理解一直是多模态领域的“硬骨头”,大量噪声和密集的视觉信息给模型带来了巨大挑战。Ovis2.5 针对这一痛点,从三个层面进行了系统性增强:

  • 数据端:新增了海量高质量的图表、OCR、Grounding 数据。

  • 视觉端:利用原生分辨率编码器,准确全面地理解图表中的元素。

  • 推理端:结合深度思考能力,对图表中的数据和逻辑关系进行精准分析。


在模型尺寸较小的情况下,Ovis2.5 实现了性能与效率的双重突破,在端侧和资源受限的场景下能发挥出“小身板、大能量” 的效果。据悉,Ovis 累计下载量超 280 万,在多模态领域最近一个月下载量仅次于 QwenVL 模型。


在 AI 领域,具有推理能力的多模态大模型应用场景特别广泛。例如,在快递分拣场景,能够识别快递面单照片上的订单号、收件地址等各种信息,并遵循指令以 JSON 格式输出,提升物流效率;在自动驾驶场景,能够处理不同模态的信息,精准感知环境、作出决策。随着人工智能的发展,大模型的多模态理解能力、推理能力升级也逐渐成为行业趋势。


据此前报道,阿里国际 AI Business 团队成立于 2023 年,基于全球化电商场景探索 AI 技术。目前,阿里国际的所有电商平台均已应用 AI,已服务了超 50 万卖家,形成了以服务中小企业出海为核心,覆盖全球多元市场、多种电商模式的规模级 AI 应用。当下,阿里国际 AI 服务的调用量每两个月就会翻一番,截至 2025 年 7 月,平均日调用量已突破 10 亿次。


附相关链接:

技术报告:https://arxiv.org/abs/2508.11737

代码: https://github.com/AIDC-AI/Ovis

9B 模型: https://huggingface.co/AIDC-AI/Ovis2.5-9B

2B 模型: https://huggingface.co/AIDC-AI/Ovis2.5-2B

9B Demo: https://huggingface.co/spaces/AIDC-AI/Ovis2.5-9B

2B Demo: https://huggingface.co/spaces/AIDC-AI/Ovis2.5-2B

2025-08-26 11:304078

评论

发布
暂无评论

springboot 整合 thymeleaf,Java校招面试指南

Java 程序员 后端

Spring Boot核心技术之Restful映射以及源码的分析,springboot启动原理通俗

Java 程序员 后端

Spring Boot面试题(2020最新版),2021我的Java大厂面试之旅

Java 程序员 后端

SpringBoot 实现大文件视频转码(转码基于FFMPEG实现)

Java 程序员 后端

SonarQube检测出的bug、漏洞以及异味的修复整理,mysql基础知识

Java 程序员 后端

Spring Boot 项目如何做性能监控?,javase教程书

Java 程序员 后端

spring-boot-route 使用aop记录操作日志,springboot入门项目实战

Java 程序员 后端

SpringBoot初始化几大招式,看了终于明白了,Java高级程序员面试集合

Java 程序员 后端

SpringBoot技术实践-SpringRetry重试框架,贼厉害

Java 程序员 后端

Servlet的Cookie和Session机制,面试谈谈对springboot的理解

Java 程序员 后端

set集合,挑战华为社招

Java 程序员 后端

SonarQube,SonarLint检测代码修复问题汇总归纳,2021京东最新Java面试真题解析

Java 程序员 后端

springboot-注解汇总,Java自学宝典下载

Java 程序员 后端

Springboot实现防重复提交和防重复点击(附源码),java高级编程实验一

Java 程序员 后端

Spring Cloud Gateway实战之二:更多路由配置方式,阿里面试java准备

Java 程序员 后端

Springboot+MybatisPlus高效实现增删改查,mysql使用教程图解目录

Java 程序员 后端

SpringBoot-整合HikariCP连接池,java三层架构登录功能实现

Java 程序员 后端

Set集合无法去重相同内容的父类对象和子类对象的问题解决

Java 程序员 后端

Sleuth服务跟踪大厂高频面试题:整合-Zipkin,java面向对象程序开发及实战答案

Java 程序员 后端

Spring Security账号密码认证源码解析,java项目开发全程实录第四版视频

Java 程序员 后端

Spring Boot 谷粒学院、谷粒商城项目问题汇总,springboot源码视频

Java 程序员 后端

Spring+SpringMVC+MyBatis整合,想拿高工资

Java 程序员 后端

Spring--声明式事务控制,mysql索引教程

Java 程序员 后端

SpringBoot整合MybatisPlus实战动态SQL,linux实用教程文东戈答案

Java 程序员 后端

Spring 基于 xml 配置的快速入门(超详细),数据库事务深入分析

Java 程序员 后端

SpringBoot 实现大文件视频转码(转码基于FFMPEG实现)(1)

Java 程序员 后端

SpringBoot2-----异常处理,快手支付中台java面试题

Java 程序员 后端

Spring+MySQL+数据结构,mybatis懒加载的原理及实现

Java 程序员 后端

Serverless Devs 的官网是如何通过 Serverless Devs 部署的

Java 程序员 后端

Socket和ServerSocket的简单介绍及例子,mongodb教程导入外部数据

Java 程序员 后端

Spring JdbcTemplate简介,java高级开发面试总结

Java 程序员 后端

尺寸更小、性能更强,阿里国际升级开源多模态大模型Ovis2.5_AI&大模型_InfoQ精选文章