写点什么

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型 Ovis

  • 2024-09-19
    北京
  • 本文字数:1374 字

    阅读完需:约 5 分钟

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际 AI 团队发布了一款多模态大模型 Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了 SOTA(最新技术)水平。

 

多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。

 

根据多模态权威综合评测平台 OpenCompass 的数据,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,赶超 MiniCPM-V-2.6 等行业优秀大模型。

 

图:Ovis 在 OpenCompass 上的测评数据情况

 

据介绍,Ovis 能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis 可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。

 

案例 1:Ovis 对手写文案的识别及翻译能力

 

案例 2:Ovis 对复杂数学公式的处理能力


案例 3:Ovis 通过对图片的识别处理能够给出菜谱

 

具体来说,Ovis 模型有五大优点:


1、创新架构设计:可学习的视觉嵌入词表:首次引入,将连续的视觉特征转换为概率化的视觉 token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分 MLLM 中 MLP 连接器架构的局限性,大幅提升多模态任务表现。


2、高分图像处理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。


3、全面数据优化:多方向数据集覆盖:全面覆盖 Caption、VQA、OCR、Table、Chart 等各个多模态数据方向,显著提升多模态问答、指令跟随等任务表现。


4、卓越模型性能:Ovis 展现出了优异的榜单表现。在多模态权威综合评测 Opencompass 上,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,超过了 Qwen2-VL-7B、MiniCPM-V-2.6 等模型。尤其在数学问答等方向表现媲美 70B 参数模型;在幻觉等任务中,Ovis-1.6 的幻觉现象和错误率显著低于同级别的模型,展现了更高的生成文本质量和准确性。


5、全部开源可商用:Ovis 系列模型 License 采用 Apache 2.0。Ovis 1.0、1.5 的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6 系列中的 Ovis1.6-Gemma2-9B 也已开源权重。


在 AI 领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息,也被视为朝向通用人工智能的下一个步骤。

 

根据此前媒体报道,阿里国际在去年成立了一支 AI 团队,目前已经在 40 多个电商场景里测试了 AI 能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等,其中多个应用场景均基于 Ovis 模型进行开发,已帮助 50 万中小商家、对 1 亿款商品进行了信息优化。据介绍,商家的 AI 需求不断增长,近半年的数据显示,平均每两个月,商家对于 AI 的调用量就翻 1 倍。


附相关链接:

论文 arXiv: https://arxiv.org/abs/2405.20797

Github: https://github.com/AIDC-AI/Ovis

Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

2024-09-19 10:5812634
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 365 篇内容, 共 293.4 次阅读, 收获喜欢 299 次。

关注

评论

发布
暂无评论
发现更多内容

自动化测试与手工测试如何找到最佳平衡点?

测试人

人工智能

如何在PPT中嵌入字体?办公常用的PPT技巧盘点!

职场工具箱

效率工具 PPT 办公软件 字体 AI生成PPT

人工智能与智能合约:如何用AI优化区块链技术中的合约执行?

天津汇柏科技有限公司

智能合约 人工智能

Studio 3T 2025.8 发布 - MongoDB 的终极 GUI、IDE 和 客户端

sysin

mongodb

10 个最受开发者喜爱的开源 ERP / CRM 项目(GitHub Star 榜单)

NocoBase

GitHub 开源 开发工具 CRM ERP

卷哭同行!飞算 JavaAI 完整代码生成,让竞品只能望 “码” 兴叹

飞算JavaAI开发助手

区块链交易所开发:开启数字交易新时代

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

2025年北京最值得去的互联网公司

测试人

人工智能

探索虚拟线程:原理与实现

京东科技开发者

副业搞钱新风口!靠 AI 写代码,程序员创收轻松破万

飞算JavaAI开发助手

Timefold 前世今生:从 OptaPlanner 到更快更强的开源优化引擎

PeterOne

人工智能 AI 后端

LangChain4j比SpringAI强在哪?一文读懂

王磊

8 大最佳开源工具助力 Web 应用开发

NocoBase

GitHub 开源 开发者 开发工具 web 开发

Nacos源码—Nacos集群高可用分析

不在线第一只蜗牛

Java 前端 服务器

分库分表后复杂查询的应对之道:基于DTS实时性ES宽表构建技术实践

京东科技开发者

深度解读ARM全新白皮书——《重塑硅基:AI时代的新基石》

GPU算力

gpu 芯片 arm ARM内核 #硅基

Cyber Triage 3.14 发布,带来全新用户界面、Hayabusa 集成、基线设定等功能

sysin

数字取证

研发排查问题的利器:一款方法调用栈跟踪工具

京东科技开发者

Java 开发效率狂飙! 如何实现 3 小时交付项目

飞算JavaAI开发助手

英特尔与黑芝麻智能签署合作备忘录,联合发布舱驾融合平台

极客天地

DApp 开发:开启去中心化应用新时代

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

跨链代币开发:架起区块链未来的桥梁

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

惊!不会 AI 编程的 Java 程序员要失业?飞算 JavaAI 成救命稻草

飞算JavaAI开发助手

深度实测:完整代码生成 VS 片段式代码,差距有多大?

飞算JavaAI开发助手

Excel百万数据高性能导出方案!

量贩潮汐·WholesaleTide

Excel

代码生成革命:开源与商业平台的竞合密码

代码制造者

图形化编排

AI大模型入门 (一):什么是大模型?

测试人

人工智能

1688 代采系统功能深度解析:如何通过自动采集商品详情数据 API 接口实现高效运营

代码忍者

1688 API

「组装式开发」:App开发首选方式?

FinFish

APP开发 小程序容器 小程序技术 组装式开发

Hologres x 函数计算 x Qwen3,对接MCP构建企业级数据分析 Agent

阿里云大数据AI技术

大数据 数据分析 agent hologres Qwen3

AI驱动热更新技术范式重构:从效率工具到智能开发生态的演进路径

xuyinyin

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis_阿里巴巴_鲁冬雪_InfoQ精选文章