NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

微软开源多模态聊天机器人 Visual ChatGPT

  • 2023-05-16
    北京
  • 本文字数:1200 字

    阅读完需:约 4 分钟

微软开源多模态聊天机器人Visual ChatGPT

微软研究院最近开源了Visual ChatGPT,一个聊天机器人系统,可以根据人类的文本提示生成和处理图像。该系统将OpenAI的ChatGPT与 22 种不同的视觉基础模型(VFM)相结合,可以支持多模态交互。


arXiv 上的一篇论文对该系统进行了描述。用户可以通过输入文本或上传图片与聊天机器人互动。机器人还可以根据文本提示生成图像,或者通过处理聊天历史记录中的图像来生成图像。该聊天机器人的一个关键模块是提示词管理器(Prompt Manager),它将用户输入的原始文本组织成一个“思维链”提示词,帮助 ChatGPT 确定是否需要调用 VFM 工具来执行图像任务。据微软团队称,Visual ChatGPT 是:


一个包含各种 VFM 的开放系统,使用户能够超越语言格式与 ChatGPT 进行交互。为了构建这样一个系统,我们精心设计了一系列提示词,将视觉信息注入到 ChatGPT 中,从而逐步解决复杂的视觉问题。


ChatGPT 和其他大语言模型(LLM)已经显示出了强大的自然语言处理能力,但它们被训练成只处理一种输入模式:文本。微软并没有训练另一个新的模型来处理多模态输入,而是设计了一个 Prompt Manager 来生成输入给 ChatGPT 的文本,进而生成可以调用 VFM(如 CLIP 或Stable Diffusion)来执行计算机视觉任务的输出。


Visual ChatGPT 架构


提示词管理器基于 LangChain 代理,而 VFM 被定义为 LangChain 代理工具。为了确定是否需要调用工具,代理会结合用户提示词和对话历史记录(其中包含了图像文件名),然后应用提示词的前缀和后缀。前缀包括以下文本:


Visual ChatGPT 不能直接读取图像,但它有一些工具可用来完成不同的视觉任务。每一张图像都有一个文件名,格式为“image/xxx.png”,Visual ChatGPT 可以调用不同的工具来间接理解图像。


前缀中的附加文本会引导 ChatGPT 问自己“是否需要使用工具”,如果需要使用工具,它应该输出工具的名称以及所需的输入,例如要生成的图像文件名或图像的文本描述。代理将迭代地调用 VFM 工具,将生成的图像发送到聊天会话中,直到不再需要使用工具。此时,最后生成的文本输出将被发送到聊天会话中。


在 Hacker News 的一个帖子中,一位用户指出 VFM 使用的内存比语言模型少得多,他想知道为什么。另一位用户回复说:


图像模型可以很差,但仍然可以生成令人满意的结果。试想一下,我们可以将图像的像素随机变化 10%,我们只会看到图像质量降低了一些,但其他方面仍然是完美的。而语言模型就不是这样了,因为它们试图解决的问题要“尖锐”得多,即使它们只是偏离了一点点,都会导致结果出现严重偏差。所以我们需要一个更大的模型来获得足够的文本“清晰度”。


Visual ChatGPT源代码可在 GitHub 上获得。


原文链接:

Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT


相关阅读:

一部手机就可运行,精通 Python 等 20 种语言!谷歌终于能与 OpenAI 打擂台了,全新 PaLM 2 比肩 GPT-4

AIGC 在保险行业有哪些应用落地的可能性?

AI 时代的“身份证”要来了?ChatGPT 之父推出加密钱包 World App,并称区块链可以区分人与 AI


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-05-16 09:218612

评论

发布
暂无评论
发现更多内容

内测分享:如何把小程序游戏运行到自有 App 中?(IOS 篇)

FN0

游戏 小程序游戏开发

事关紧急!每个运维人员都应该了解的工作

嘉为蓝鲸

自动化运维 嘉为蓝鲸 AD防护

海量数据下查询慢、数据不一致难题如何解?看某游戏公司的技术实践

OceanBase 数据库

数据库 oceanbase

什么是NineData?突然就火了

数据库小组

数据库 数据备份 多云管理 跨云数据

源码深度解析之 Spring IOC

小小怪下士

Java spring spring ioc

工作中常用的设计模式--责任链模式

lpe234

Java 后端 设计模式 责任链模式 spring-boot

Navicat!OceanBase社区版新朋友来啦!

OceanBase 数据库

数据库 oceanbase

低代码平台的五大核心引擎能力

元年技术洞察

低代码 数字化转型 方舟平台

华为云发布CodeArts Req需求管理工具,让需求管理化繁为简

华为云开发者联盟

云计算 华为云 12 月 PK 榜

ui设计网站:全网最热门的30个UI设计网站合集

uimaker

UI GUI设计

软件项目管理工具 PingCode 入选2022年度企服口碑产品TOP36——36氪

PingCode

佛萨奇2.0项目系统开发源代码(可多链部署搭建)

开发微hkkf5566

高性能数据访问中间件 OBProxy(七):安全、协议和监控

OceanBase 数据库

数据库 oceanbase

React组件设计模式-纯组件,函数组件,高阶组件

xiaofeng

React

React组件复用的技巧

夏天的味道123

React

【DBA100人】Payso张耀辉:学材料专业出身的他转身做了“码农”

OceanBase 数据库

数据库 dba oceanbase

手把手教你成为荣耀开发者:数据报表使用指引

荣耀开发者服务平台

android 手机 荣耀 honor

阿里云携手深势科技,助力泓博医药加速药物研发

云布道师

阿里云 药物研发

中小企业都在用哪些项目进度跟踪系统?

PingCode

React组件通信

xiaofeng

React

React核心工作原理

xiaofeng

React

人保科技:自动化运维场景在数据中心的落地之网络策略自动化管理

嘉为蓝鲸

自动化管理 自动化运维 嘉为蓝鲸

微软宣布 S2C2F 已被 OpenSSF 采用

SEAL安全

microsoft OpenSSF 12 月 PK 榜 S2C2F

小间距LED是一个很有前途的产品

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

保驾护航,嘉为蓝鲸助力某科技公司AD域故障恢复实记

嘉为蓝鲸

AD 自动化运维 嘉为蓝鲸

React高级特性之Context

夏天的味道123

React

React组件复用的发展史

夏天的味道123

React

Vue中的diff算法深度解析

yyds2026

Vue

Vue3知识点之数据侦测

yyds2026

Vue

实例解析丨一文搞定GaussDB CM服务异常

华为云开发者联盟

数据库 虚拟机 华为云 12 月 PK 榜

跟我学Python图像处理丨图像分类原理与案例

华为云开发者联盟

Python 人工智能 华为云 12 月 PK 榜

微软开源多模态聊天机器人Visual ChatGPT_开源_Anthony Alford_InfoQ精选文章