大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

  • 2024-09-01
    北京
  • 本文字数:2938 字

    阅读完需:约 10 分钟

大小:1.35M时长:07:52
通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次。目前,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业也格外关注 Qwen-VL 的升级迭代。


据悉,相比上代模型,Qwen2-VL 的基础性能全面提升,可以读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;可以理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;能理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。



通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-7B 以其“经济型”参数规模实现了极具竞争力的性能表现;Qwen2-VL-2B 则可支持移动端的丰富应用,同样具备完整图像视频多语言的理解能力,在视频文档和通用场景问答方面,相比同规模模型优势显著。

测试表现


  • 视频理解与实时聊天


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • Visual Agent 能力:函数调用和视觉交互



    • 视觉推理


    用户:请告诉我从 Ruka 的生日到 Yuki 的生日有多少天?仔细地一步步思考。



    Qwen2-VL:


    要确定 Ruka 和 Yuki 生日之间的天数,我们需要计算他们各自生日日期之间的差异。

    1、Ruka 的生日是在 6 月 24 日。

    2、Yuki 的生日是在 9 月 17 日。

    让我们一步步来计算:

    1. 从 6 月 24 日到 6 月 30 日:

    • 从 6 月 24 日到 6 月 30 日共有 6 天。

    2. 从 7 月 1 日到 8 月 31 日:

    • 7 月有 31 天。

    • 8 月有 31 天。

    • 7 月和 8 月总共有 31 + 31 = 62 天。

    3. 从 9 月 1 日到 9 月 17 日:

    • 从 9 月 1 日到 9 月 17 日共有 17 天。

    现在我们将所有的天数加起来:

    • 从 6 月 24 日到 6 月 30 日:6 天

    • 从 7 月 1 日到 8 月 31 日:62 天

    • 从 9 月 1 日到 9 月 17 日:17 天

    总天数 = 6 + 62 + 17 = 85 天

    因此,Ruka 和 Yuki 的生日之间共有 85 天。


    • 更细节的识别理解


    用户:转录图中内容,并识别图中每段内容的语言。



    Qwen2-VL:


    1. 汉语,也称为“华语”。是中国使用人数最多的语言,也是世界上作为第一语言使用人数最多的语言。是中华优秀传统文化的重要载体。繁体字,又稱為“繁體中文”,與“簡化字”/“簡體字”相對。一般是指漢字簡化運動被簡化字所代替的漢字。

    2. 语言:中文

    3. 日本語は地方ごとに多様な方言があり、とりわけ琉球諸島で方言差が著しい。

    4. 语言:日语

    5. 한국어(韓國語), 조선말(朝鮮말)는 대한민국과 조선민주주의인민공화국의 공용어이다. 둘은 표기나 문법에서는 차이가 없지만 동사 어미나 표현에서 차이가 있다.

    6. 语言:韩语

    7. Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés « francophones ».

    8. 语言:法语

    9. El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas.

    10. 语言:西班牙语

    11. A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal.

    12. 语言:葡萄牙语

    13. Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe.

    14. 语言:爱尔兰语

    15. English is a West Germanic language in the Indo-European language family, whose speakers, called Anglophones, originated in early medieval England on the island of Great Britain.

    16. 语言:英语

    17. Die deutsche Sprache bzw. Deutsch ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.

    18. 语言:德语

    19. Język polski, polszczyzna — język z grupy zachodniosłowiańskiej (do której należą również czeski, kaszubski, słowacki, języki łużyckie czy wymarły język drzewiański), stanowiącej część rodziny indoeuropejskiej.

    语言:波兰语
    
    1. Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου.

    语言:希腊语
    
    1. Tiếng Việt hay Việt ngữ là một ngôn ngữ thuộc ngữ hệ Nam Á, được công nhận là ngôn ngữ chính thức tại Việt Nam.

    语言:越南语
    
    1. Монгол хэл нь Монгол улсын албан ёсны хэл юм.

    语言:蒙古语
    
    1. Число владеющих русским языком в России составляет 137,5 млн человек (2010). Всего в мире на русском говорят 258,2 млн человек (2022)

    语言:俄语
    
    1. हिन्दी विश्व की एक प्रमुख भाषा है और भारत की एक राजभाषा है। केन्द्रीय स्तर पर भारत में सह-आधिकारिक भाषा अंग्रेज़ी है।

    语言:印地语
    
    1. Kiswahili ni lugha ya Kibantu yenye misamiati mingi ya Kiarabu (35%), lakini sasa ya Kiingereza pia (10%), inayozungumzwa katika eneo kubwa la Afrika ya Mashariki.

    语言:斯瓦希里语
    


    架构改进


    Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。研发团队还在架构上作了两大改进:


    一是实现了对原生动态分辨率的全面支持,不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,这一设计模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力;


    二是使用了多模态旋转位置嵌入(M-ROPE)方法,传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。



    目前,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 APP 的主对话页面使用模型。


    GitHub:https://github.com/QwenLM/Qwen2-VL


    HuggingFacehttps://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d


    魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model


    模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VL


    2024-09-01 11:067281

    评论

    发布
    暂无评论
    发现更多内容

    netty案例,netty4.1源码分析篇三《Netty服务端初始化过程以及反射工厂的作用》

    小傅哥

    Java Netty 小傅哥

    spring事务的这10种坑,你稍不注意可能就会踩中

    简爱W

    Spring的Controller是单例还是多例?怎么保证并发的安全

    简爱W

    netty案例,netty4.1源码分析篇一《NioEventLoopGroup源码分析》

    小傅哥

    Netty 小傅哥

    netty案例,netty4.1源码分析篇四《ByteBuf的数据结构在使用方式中的剖析》

    小傅哥

    Java Netty 小傅哥

    JDK8 日期 API 使用

    HeGuang

    JDK1.8

    netty案例,netty4.1中级拓展篇十一《Netty基于ChunkedStream数据流切块传输》

    小傅哥

    Java Netty 小傅哥

    大龄程序员的自我介绍 v 0.1

    escray

    学习 面试 自我介绍

    数字化背景下的经济社会发展的新特征 新趋势

    CECBC

    区块链 人工智能 大数据

    netty案例,netty4.1中级拓展篇十《Netty接收发送多种协议消息类型的通信处理方案》

    小傅哥

    Java Netty 小傅哥

    netty案例,netty4.1源码分析篇二《ServerBootstrap配置与绑定启动》

    小傅哥

    Java Netty 小傅哥

    netty案例,netty4.1源码分析篇六《Netty异步架构监听类Promise源码分析》

    小傅哥

    Netty 小傅哥

    大数据技术思想入门(二):分布式存储集群特点

    cristal

    Java 大数据 hadoop 分布式

    区块链的共识机制有哪些好处优势?

    CECBC

    区块链 分布式 金融

    8锁问题

    HeGuang

    synchronized

    书摘之《堂吉诃德》—— 谁不曾想过仗剑走天涯?

    小匚

    读书笔记

    netty案例,netty4.1中级拓展篇九《Netty集群部署实现跨服务端通信的落地方案》

    小傅哥

    Java Netty 小傅哥

    世界正在重塑 加密货币将扮演什么角色

    CECBC

    数字货币 加密货币

    做职场里的“超级英雄”,需要怎样的盔甲与工具?

    脑极体

    程序开发中的持续集成、持续交付、持续部署

    石云升

    持续集成 持续交付 持续部署 自动化部署

    Week10--课后作业

    Geek_165f3d

    netty案例,netty4.1中级拓展篇十三《Netty基于SSL实现信息传输过程中双向加密验证》

    小傅哥

    Netty 小傅哥

    netty案例,netty4.1高级应用篇一,手写RPC框架第一章《自定义配置xml》

    小傅哥

    Java Netty

    netty案例,netty4.1高级应用篇三,手写RPC框架第三章《RPC中间件》

    小傅哥

    Netty 小傅哥

    Week10---课后总结

    Geek_165f3d

    netty案例,netty4.1中级拓展篇八《Netty心跳服务与断线重连》

    小傅哥

    Netty 小傅哥

    netty案例,netty4.1中级拓展篇十二《Netty流量整形数据流速率控制分析与实战》

    小傅哥

    Netty 小傅哥

    netty案例,netty4.1高级应用篇二,手写RPC框架第二章《netty通信》

    小傅哥

    Netty 小傅哥

    netty案例,netty4.1源码分析篇五《一行简单的writeAndFlush都做了哪些事》

    小傅哥

    Java Netty 小傅哥

    一个实用的开源项目,可以快速将 Elasticsearch 数据导出到 csv

    AlwaysBeta

    Python 数据库 elasticsearch Kibana Lucene Elastic Search

    阿里内部流传的Mybatis笔记终于流传出来了,赶紧收藏

    简爱W

    通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频_AI&大模型_褚杏娟_InfoQ精选文章