2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

  • 2024-09-01
    北京
  • 本文字数:2938 字

    阅读完需:约 10 分钟

大小:1.35M时长:07:52
通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次。目前,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业也格外关注 Qwen-VL 的升级迭代。


据悉,相比上代模型,Qwen2-VL 的基础性能全面提升,可以读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;可以理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;能理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。



通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-7B 以其“经济型”参数规模实现了极具竞争力的性能表现;Qwen2-VL-2B 则可支持移动端的丰富应用,同样具备完整图像视频多语言的理解能力,在视频文档和通用场景问答方面,相比同规模模型优势显著。

测试表现


  • 视频理解与实时聊天


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • Visual Agent 能力:函数调用和视觉交互



    • 视觉推理


    用户:请告诉我从 Ruka 的生日到 Yuki 的生日有多少天?仔细地一步步思考。



    Qwen2-VL:


    要确定 Ruka 和 Yuki 生日之间的天数,我们需要计算他们各自生日日期之间的差异。

    1、Ruka 的生日是在 6 月 24 日。

    2、Yuki 的生日是在 9 月 17 日。

    让我们一步步来计算:

    1. 从 6 月 24 日到 6 月 30 日:

    • 从 6 月 24 日到 6 月 30 日共有 6 天。

    2. 从 7 月 1 日到 8 月 31 日:

    • 7 月有 31 天。

    • 8 月有 31 天。

    • 7 月和 8 月总共有 31 + 31 = 62 天。

    3. 从 9 月 1 日到 9 月 17 日:

    • 从 9 月 1 日到 9 月 17 日共有 17 天。

    现在我们将所有的天数加起来:

    • 从 6 月 24 日到 6 月 30 日:6 天

    • 从 7 月 1 日到 8 月 31 日:62 天

    • 从 9 月 1 日到 9 月 17 日:17 天

    总天数 = 6 + 62 + 17 = 85 天

    因此,Ruka 和 Yuki 的生日之间共有 85 天。


    • 更细节的识别理解


    用户:转录图中内容,并识别图中每段内容的语言。



    Qwen2-VL:


    1. 汉语,也称为“华语”。是中国使用人数最多的语言,也是世界上作为第一语言使用人数最多的语言。是中华优秀传统文化的重要载体。繁体字,又稱為“繁體中文”,與“簡化字”/“簡體字”相對。一般是指漢字簡化運動被簡化字所代替的漢字。

    2. 语言:中文

    3. 日本語は地方ごとに多様な方言があり、とりわけ琉球諸島で方言差が著しい。

    4. 语言:日语

    5. 한국어(韓國語), 조선말(朝鮮말)는 대한민국과 조선민주주의인민공화국의 공용어이다. 둘은 표기나 문법에서는 차이가 없지만 동사 어미나 표현에서 차이가 있다.

    6. 语言:韩语

    7. Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés « francophones ».

    8. 语言:法语

    9. El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas.

    10. 语言:西班牙语

    11. A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal.

    12. 语言:葡萄牙语

    13. Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe.

    14. 语言:爱尔兰语

    15. English is a West Germanic language in the Indo-European language family, whose speakers, called Anglophones, originated in early medieval England on the island of Great Britain.

    16. 语言:英语

    17. Die deutsche Sprache bzw. Deutsch ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.

    18. 语言:德语

    19. Język polski, polszczyzna — język z grupy zachodniosłowiańskiej (do której należą również czeski, kaszubski, słowacki, języki łużyckie czy wymarły język drzewiański), stanowiącej część rodziny indoeuropejskiej.

    语言:波兰语
    
    1. Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου.

    语言:希腊语
    
    1. Tiếng Việt hay Việt ngữ là một ngôn ngữ thuộc ngữ hệ Nam Á, được công nhận là ngôn ngữ chính thức tại Việt Nam.

    语言:越南语
    
    1. Монгол хэл нь Монгол улсын албан ёсны хэл юм.

    语言:蒙古语
    
    1. Число владеющих русским языком в России составляет 137,5 млн человек (2010). Всего в мире на русском говорят 258,2 млн человек (2022)

    语言:俄语
    
    1. हिन्दी विश्व की एक प्रमुख भाषा है और भारत की एक राजभाषा है। केन्द्रीय स्तर पर भारत में सह-आधिकारिक भाषा अंग्रेज़ी है।

    语言:印地语
    
    1. Kiswahili ni lugha ya Kibantu yenye misamiati mingi ya Kiarabu (35%), lakini sasa ya Kiingereza pia (10%), inayozungumzwa katika eneo kubwa la Afrika ya Mashariki.

    语言:斯瓦希里语
    


    架构改进


    Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。研发团队还在架构上作了两大改进:


    一是实现了对原生动态分辨率的全面支持,不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,这一设计模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力;


    二是使用了多模态旋转位置嵌入(M-ROPE)方法,传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。



    目前,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 APP 的主对话页面使用模型。


    GitHub:https://github.com/QwenLM/Qwen2-VL


    HuggingFacehttps://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d


    魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model


    模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VL


    2024-09-01 11:067059

    评论

    发布
    暂无评论
    发现更多内容

    TiDB 迁移上云实践(一)之自建MySQL

    TiDB 社区干货传送门

    迁移

    TIUP离线镜像管理

    TiDB 社区干货传送门

    安装 & 部署

    TiDB 8.0 新特性尝鲜

    TiDB 社区干货传送门

    版本测评 新版本/特性解读 8.x 实践

    TiDB启动:职业生涯新阶段

    TiDB 社区干货传送门

    社区活动 学习&认证&课程

    干掉DBA!产品经理运维 TiDB,用非技术手段攻克技术挑战

    TiDB 社区干货传送门

    管理与运维

    小镇做题家,成为交大学科创始人,为什么还要来做制造?人工智能怎么用在制造业?

    工赋开发者社区

    MES系统集成及MES数据集成管理

    工赋开发者社区

    NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解

    汀丶人工智能

    自然语言处理 大语言模型 NL2SQL

    🔥🔥httpsok-快速申请谷歌SSL免费证书

    物有本末

    nginx https SSL证书 SSL/TLS 协议 HTTPSOK

    工刻·标杆工厂探秘之旅:开启卓越成长之路

    工赋开发者社区

    从偶然邂逅到深度热爱

    TiDB 社区干货传送门

    社区活动 学习&认证&课程

    从库延迟案例分析

    GreatSQL

    下班时刻的私人专访|PingCAP 九周年纪念日这一天,我问了表妹九个问题

    TiDB 社区干货传送门

    人物访谈

    TiProxy 问题解答 & 未来规划

    TiDB 社区干货传送门

    新版本/特性发布 新版本/特性解读 数据库连接 8.x 实践

    IaC 管理新思路:Walrus 和 Terraform 的差异化探索

    SEAL安全

    运维 云原生 IaC Terraform Walrus

    架构思考随笔 - 回归单体架构?

    小粽

    剪映APP利用火山引擎VeDI A/B测试验证新功能效果

    极客天地

    即时通讯技术文集(第36期):《跟着源码学IM》系列专题 [共12篇]

    JackJiang

    即时通讯;IM;网络编程

    LigaAI x 极狐GitLab,共探 AI 时代研发提效新范式

    LigaAI

    人工智能 DevOps 极狐GitLab LigaAI 研发效能管理

    解锁阿里巴巴1688数据宝藏:API助力批量获取商品价格、标题、图片及库存

    技术冰糖葫芦

    API boy api 货币化 pinduoduo API

    TiDB 监控告警高可用

    TiDB 社区干货传送门

    TIKV分布式事务简介

    TiDB 社区干货传送门

    TiKV 底层架构 学习&认证&课程

    社区声音:恭喜 TiProxy 组件 GA!

    TiDB 社区干货传送门

    版本测评 8.x 实践

    AmzTrends x TiDB Serverless:通过云原生改造实现全局成本降低 80%

    TiDB 社区干货传送门

    实践案例

    🔥🔥v1.9.2-httpsok快速申请免费谷歌SSL证书

    物有本末

    nginx https TLS SSL证书 HTTPSOK

    碳视野 | 今后五年国家重点支持三类双碳项目!

    AMT企源

    数字化转型 双碳 碳管理

    「合肥*讯飞」4月19日PolarDB开源数据库沙龙,报名中!

    阿里云数据库开源

    阿里云 技术交流 开源数据库 PolarDB-X 科大讯飞

    NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解Text2SQL

    汀丶人工智能

    自然语言处理 NL2SQL NL2DSL

    深入解析decltype和decltype(auto)

    爱分享

    代码优化 C++11 C++ modern C++ C++14

    tidb 6.1.4 table cache 导致的集群QPS异常问题

    TiDB 社区干货传送门

    集群管理 管理与运维 故障排查/诊断 6.x 实践

    通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频_AI&大模型_褚杏娟_InfoQ精选文章