写点什么

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型 Ovis

  • 2024-09-19
    北京
  • 本文字数:1374 字

    阅读完需:约 5 分钟

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际 AI 团队发布了一款多模态大模型 Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了 SOTA(最新技术)水平。

 

多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。

 

根据多模态权威综合评测平台 OpenCompass 的数据,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,赶超 MiniCPM-V-2.6 等行业优秀大模型。

 

图:Ovis 在 OpenCompass 上的测评数据情况

 

据介绍,Ovis 能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis 可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。

 

案例 1:Ovis 对手写文案的识别及翻译能力

 

案例 2:Ovis 对复杂数学公式的处理能力


案例 3:Ovis 通过对图片的识别处理能够给出菜谱

 

具体来说,Ovis 模型有五大优点:


1、创新架构设计:可学习的视觉嵌入词表:首次引入,将连续的视觉特征转换为概率化的视觉 token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分 MLLM 中 MLP 连接器架构的局限性,大幅提升多模态任务表现。


2、高分图像处理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。


3、全面数据优化:多方向数据集覆盖:全面覆盖 Caption、VQA、OCR、Table、Chart 等各个多模态数据方向,显著提升多模态问答、指令跟随等任务表现。


4、卓越模型性能:Ovis 展现出了优异的榜单表现。在多模态权威综合评测 Opencompass 上,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,超过了 Qwen2-VL-7B、MiniCPM-V-2.6 等模型。尤其在数学问答等方向表现媲美 70B 参数模型;在幻觉等任务中,Ovis-1.6 的幻觉现象和错误率显著低于同级别的模型,展现了更高的生成文本质量和准确性。


5、全部开源可商用:Ovis 系列模型 License 采用 Apache 2.0。Ovis 1.0、1.5 的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6 系列中的 Ovis1.6-Gemma2-9B 也已开源权重。


在 AI 领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息,也被视为朝向通用人工智能的下一个步骤。

 

根据此前媒体报道,阿里国际在去年成立了一支 AI 团队,目前已经在 40 多个电商场景里测试了 AI 能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等,其中多个应用场景均基于 Ovis 模型进行开发,已帮助 50 万中小商家、对 1 亿款商品进行了信息优化。据介绍,商家的 AI 需求不断增长,近半年的数据显示,平均每两个月,商家对于 AI 的调用量就翻 1 倍。


附相关链接:

论文 arXiv: https://arxiv.org/abs/2405.20797

Github: https://github.com/AIDC-AI/Ovis

Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

2024-09-19 10:5812875
用户头像
鲁冬雪 GMI Cloud Head of China Marketing

发布了 370 篇内容, 共 320.6 次阅读, 收获喜欢 304 次。

关注

评论

发布
暂无评论
发现更多内容

Java 多线程开发系列 2:创建一个线程

BigBang!

Java多线程

Sketch 99 for mac(矢量绘图软件)

展初云

Mac 矢量绘图 Sketch

graphpad prism 10 for mac永久注册码 prism10下载

Rose

mac软件下载 GraphPad Prism 10 数据分析绘图软件 Prism 10 Mac破解

苹果最新系统:macOS 14 Sonoma 14.1.1正式版

加油,小妞!

macOS 14 Sonoma Macos最新系统

【永久激活】Netflix mac客户端 兼容M1/M2 打造极致的观影体验!

Rose

奈飞客户端 mac视频播放器 Netflix Mac激活版

文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!

百度Geek说

AIGC 文生图 Ai绘图 企业号11月PK榜 百度搜索场景应用

直接从 Amazon EC2 控制台模拟竞价型实例集中断的情况

亚马逊云科技 (Amazon Web Services)

Amazon EC2

向成本要效益!用友BIP助力车企突破内卷、打赢“降本战”

用友BIP

降本增效

mac原型设计:Axure RP 10 for Mac中文汉化版包下载

Rose

Axure RP 10 汉化版 Mac原型设计 Axure RP 10 下载

针对现状为什么需要对特权账号进行管理

尚思卓越

网络安全 特权账号管理

HTML文本编辑器BBEdit for Mac破解版(附注册码)支持M1/M2

Rose

html 代码编辑器 Mac破解软件 BBEdit注册版 BBEdit for Mac破解版

HarmonyOS NEXT调优工具Smart Perf Host高效使用指南

HarmonyOS开发者

HarmonyOS

提示找不到某些库文件?

矩视智能

深度学习 机器视觉

基于Java开发的供应商询价招标采购系统(SRM系统源码)

代码人,代码魂

Java springboot 采购 srm

中国电信国际数智化人力领先实践

用友BIP

人力资源 数智化领先实践 中国电信

依赖关系指的在Linux操作系统中,如何解决软件依赖关系?

小齐写代码

DxO PureRAW 3 for mac(raw照片智能处理工具)

展初云

Mac DxO PureRAW raw智能照片处理工具

一体式Mac系统清理应用 AweCleaner 最新免激活版

胖墩儿不胖y

Mac软件 清理工具 系统清理软件

亚马逊云科技加速大语言模型的创新应用

三掌柜

亚马逊云科技

站群服务器优势

Geek_f19a80

当生成式AI从梦想走近现实,大语言模型未来会取代人类吗?

格致君的planB

人工智能 AI 大语言模型

OpenHarmony社区运营报告(2023年10月)

OpenHarmony开发者

OpenHarmony

macos智能图片编辑工具:DxO PhotoLab 6 中文版

加油,小妞!

Raw图像处理软件 DxO PhotoLab 6

Dash for Mac v7.1.6激活版 提升API文档编写效率

Rose

API文档 Mac破解软件 Dash Mac破解版 Dash下载

Archicad 26中文for Mac(BIM建模软件) Archicad26破解详细安装教程

Rose

mac软件下载 建模软件 Archicad 26破解版 Archicad 26 Mac中文版 BIM软件

Android下Linux创建进程的姿势(上)

江湖修行

android Linux 进程

智慧燃气:用友BIP资产云如何实现管道资产数智化管理?

用友BIP

资产管理 智慧燃气

DxO PhotoLab 7 for mac(专业raw图像处理工具)

展初云

Mac Raw图像处理软件 DxO PhotoLab 7

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis_阿里巴巴_鲁冬雪_InfoQ精选文章