数据库前沿趋势抢先看,尽在 3 月 25 日 OceanBase 开发者大会!报名戳 了解详情
写点什么

商汤发布多模态多任务通用大模型:30 亿参数,现已开源

  • 2023-03-16
    北京
  • 本文字数:1409 字

    阅读完需:约 5 分钟

商汤发布多模态多任务通用大模型:30亿参数,现已开源

3 月 14 日,商汤科技发布了多模态多任务通用大模型“书生(INTERN)2.5”,并已经开源。

 

据商汤介绍,该模型拥有 30 亿参数,是目前全球开源模型中ImageNet准确度最高、规模最大,同时也是物体检测标杆数据集 COCO 中唯一超过 65.0 mAP 的模型。

 

“书生(INTERN)”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在 2021 年 11 月首次共同发布,并持续联合研发。凭借在多模态多任务处理能力方面多项突破,“书生 2.5”的图文跨模态开放任务处理能力可为自动驾驶机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能又迈出了坚实一步。

 

即日起,“书生 2.5”多模态通用大模型已在商汤参与的通用视觉开源平台 OpenGVLab 开源。

迈向 AGI 通用人工智能


在当今快速增长的各式应用场景需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

 

“书生 2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

 

在自动驾驶和居家机器人等通用场景下,“书生 2.5”可辅助处理各种复杂任务。例如在自动驾驶场景下,可以大幅提升场景感知理解能力,准确地辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆的决策规划提供有效信息输入。

 

“书生 2.5”同时具备AIGC“以文生图”的能力,可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。例如借助“书生 2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤的车道、马路上奔跑的狗等,生成写实的 Corner Case 训练数据,进而训练自动驾驶系统对 Corner Case 场景的感知能力上限。

 

“书生 2.5”还可根据文本快速检索出视觉内容。例如,可在相册中返回文本所指定的相关图像,或是在视频中,检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,可实现开放世界视频或图像中物体检测及视觉定位。

囊括三大模型能力,打通 NLP、图像等多模态任务处理


“书生 2.5”在图文跨模态领域优秀的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即 InternImage-G 通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。

 

其中,InternImage-G 通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。

 


超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver 通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外,“书生 2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效的多任务协作能力。

 

在视觉主流图像分类数据集 ImageNet 上,该模型仅基于公开数据便达到了 90.1%的 Top-1 准确率。这是除谷歌与微软之外,唯一准确率超过 90.0%的模型,值得一提的是,谷歌与微软均未公开模型及额外数据集。

 

“书生 2.5”项目地址:https://github.com/OpenGVLab/InternImage

2023-03-16 16:2320
用户头像
李冬梅 加V:busulishang4668

发布了 526 篇内容, 共 184.1 次阅读, 收获喜欢 677 次。

关注

评论

发布
暂无评论
发现更多内容

最有技术含量的面试

escray

面试 面经 七日更 十日谈

揭开阿里巴巴复杂任务资源混合调度技术面纱

阿里巴巴云原生

云计算 阿里云 性能优化 云原生 资源调度

社区一体化综合平台搭建,智慧平安小区建设解决方案

t13823115967

智慧城市 智慧平安社区平台建设

附PPT丨AWS基于数据湖构建云上的数据分析架构

dbaplus社群

数据湖 AWS

夜莺二次开发指南-监控系统(1)

ning

滴滴夜莺 夜莺监控

夜莺二次开发指南-监控系统(2)

ning

滴滴夜莺 夜莺监控

MySQL字符集修改实战教程

Simon

MySQL 字符集 七日更

如何在 20 分钟内给你的 K8s PaaS 上线一个新功能?

阿里巴巴云原生

阿里云 容器 运维 云原生

XRP瑞波币系统软件开发|XRP瑞波币APP开发

系统开发

Go中的Channel背后的设计哲学

soolaugust

Go Concurrency Patterns 七日更 CSP Go 语言

现代JavaScript:ES6+ 中的 Imports,Exports,Let,Const 和 Promise

葡萄城技术团队

Java ES6

架构师训练营第 1 期 - 第 11 周 - 命题作业

wgl

极客大学架构师训练营

Shell简介

入门小站

Shell

打开数“智”化之门,一字之差带来的思考

京东科技开发者

DevOps IoT 新基建 智能

代码零改动Serverless架构升级?这家在线编程教育企业是这么做的

阿里巴巴中间件

Python Serverless

《数据分析》PDF免费下载

计算机与AI

数据分析

任务发布系统软件开发|任务发布APP开发

系统开发

引领云原生发展浪潮 阿里云开启云原生大规模落地元年

阿里巴巴云原生

云计算 阿里巴巴 阿里云 最佳实践 云原生

Android uni-app实现音视频通话

anyRTC开发者

uni-app android 音视频 WebRTC 跨平台

灵魂一问:数据库连接池到底该怎么配?

Gopher指北

MySQL Go 语言

Serverless 是一种思想状态

Serverless Devs

Java Serverless 运维 云原生 后端

语音助手中的复杂语义表达方法

DataFunTalk

AI nlp

生产环境全链路压测建设历程 18:某快递 A 股上市公司的生产压测案例之中篇

数列科技杨德华

全链路压测 七日更

如何破解AI数据困境?京东智联云联邦学习平台有良方

京东科技开发者

人工智能 大数据 学习

执法监督信息化建设,公安情报指挥一体化合成作战系统开发

t13823115967

智慧公安

LeetCode题解:42. 接雨水,暴力法,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

Spring Cloud 2020.0.0正式发布,再见了Netflix

YourBatman

Spring Cloud Spring Boot netflix 2020.0.0

30G 上亿数据的超大文件,如何快速导入生产环境?

楼下小黑哥

Java MySQL 并发编程 线程池

12张图带你彻底理解分布式事务!!

冰河

分布式事务 BASE理论 TCC ACID CAP理论

手写线程池,对照学习ThreadPoolExecutor线程池实现原理!

小傅哥

Java 小傅哥 线程池 七日更 ThreadPoolExecutor

判空使用isEmpty()方法真的可行吗?

田维常

Java

商汤发布多模态多任务通用大模型:30亿参数,现已开源_AI_李冬梅_InfoQ精选文章