大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

微软开源多模态聊天机器人 Visual ChatGPT

  • 2023-05-16
    北京
  • 本文字数:1200 字

    阅读完需:约 4 分钟

微软开源多模态聊天机器人Visual ChatGPT

微软研究院最近开源了Visual ChatGPT,一个聊天机器人系统,可以根据人类的文本提示生成和处理图像。该系统将OpenAI的ChatGPT与 22 种不同的视觉基础模型(VFM)相结合,可以支持多模态交互。


arXiv 上的一篇论文对该系统进行了描述。用户可以通过输入文本或上传图片与聊天机器人互动。机器人还可以根据文本提示生成图像,或者通过处理聊天历史记录中的图像来生成图像。该聊天机器人的一个关键模块是提示词管理器(Prompt Manager),它将用户输入的原始文本组织成一个“思维链”提示词,帮助 ChatGPT 确定是否需要调用 VFM 工具来执行图像任务。据微软团队称,Visual ChatGPT 是:


一个包含各种 VFM 的开放系统,使用户能够超越语言格式与 ChatGPT 进行交互。为了构建这样一个系统,我们精心设计了一系列提示词,将视觉信息注入到 ChatGPT 中,从而逐步解决复杂的视觉问题。


ChatGPT 和其他大语言模型(LLM)已经显示出了强大的自然语言处理能力,但它们被训练成只处理一种输入模式:文本。微软并没有训练另一个新的模型来处理多模态输入,而是设计了一个 Prompt Manager 来生成输入给 ChatGPT 的文本,进而生成可以调用 VFM(如 CLIP 或Stable Diffusion)来执行计算机视觉任务的输出。


Visual ChatGPT 架构


提示词管理器基于 LangChain 代理,而 VFM 被定义为 LangChain 代理工具。为了确定是否需要调用工具,代理会结合用户提示词和对话历史记录(其中包含了图像文件名),然后应用提示词的前缀和后缀。前缀包括以下文本:


Visual ChatGPT 不能直接读取图像,但它有一些工具可用来完成不同的视觉任务。每一张图像都有一个文件名,格式为“image/xxx.png”,Visual ChatGPT 可以调用不同的工具来间接理解图像。


前缀中的附加文本会引导 ChatGPT 问自己“是否需要使用工具”,如果需要使用工具,它应该输出工具的名称以及所需的输入,例如要生成的图像文件名或图像的文本描述。代理将迭代地调用 VFM 工具,将生成的图像发送到聊天会话中,直到不再需要使用工具。此时,最后生成的文本输出将被发送到聊天会话中。


在 Hacker News 的一个帖子中,一位用户指出 VFM 使用的内存比语言模型少得多,他想知道为什么。另一位用户回复说:


图像模型可以很差,但仍然可以生成令人满意的结果。试想一下,我们可以将图像的像素随机变化 10%,我们只会看到图像质量降低了一些,但其他方面仍然是完美的。而语言模型就不是这样了,因为它们试图解决的问题要“尖锐”得多,即使它们只是偏离了一点点,都会导致结果出现严重偏差。所以我们需要一个更大的模型来获得足够的文本“清晰度”。


Visual ChatGPT源代码可在 GitHub 上获得。


原文链接:

Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT


相关阅读:

一部手机就可运行,精通 Python 等 20 种语言!谷歌终于能与 OpenAI 打擂台了,全新 PaLM 2 比肩 GPT-4

AIGC 在保险行业有哪些应用落地的可能性?

AI 时代的“身份证”要来了?ChatGPT 之父推出加密钱包 World App,并称区块链可以区分人与 AI


2023-05-16 09:2110000

评论

发布
暂无评论
发现更多内容

全栈程序员这个月写了啥代码?

程序员鱼皮

Java JavaScript 大前端 后端 全栈

Nacos--简介

是老郭啊

微服务 nacos 服务注册与发现

博云容器云 3.2 发布:核心能力再提升,易用性再升级

BoCloud博云

容器

算法如何促成亿级别扶持曝光视频?爱奇艺Budget Pacing智能扶植系统实践

爱奇艺技术产品团队

架构 推荐 算法 广告 扶植

架构实战营模块5作业

En wei

架构实战营

VRIO模型 - 发现自己的核心资源与能力

石云升

创业 职场经验 管理经验 6月日更

字节跳动的ToB生意,为什么需要火山引擎?

ToB行业头条

一些有意思的句子

IT蜗壳-Tango

IT蜗壳 6月日更

博睿数据深化信创布局,通过华为鲲鹏920和统信UOS测试认证

博睿数据

信创 国产化 博睿数据

深入理解iOS图文混排原理并自定义图文控件

Geen练

图文混排 iOS Developer iOS 知识体系

博睿数据重塑APM,引领IT运维新标杆

博睿数据

博睿数据 数据链DNA 服务可达

从天而降的AI“青云梯”,开发者们准备好了吗?

白洞计划

贝特瑞新能源汽车的速度与激情

亚马逊云科技 (Amazon Web Services)

我们并不需要 Deno

LeanCloud

node.js deno 开发工具 JavaScrip

【环球网】博睿数据CEO冯云彪:做好生态链企业的适配工作

博睿数据

博睿数据 博睿数据数据链DNA 生态链

拍乐云运维专家受邀QECon大会,畅谈多云环境伸缩实践

拍乐云Pano

聊聊MySQL全局锁

架构精进之路

MySQL 6月日更

Nacos-- docker搭建

是老郭啊

Docker nacos

区块链作为“信任的机器”,将改变社会价值的传递方式

CECBC

拼多多电商部java岗三面落选,记下的面试题,不睡觉都要背下来!

Java 程序员 架构 面试

Polkadot“升级”之道

趣链科技

区块链 区块链技术 polkadot

农业SaaS,「无人关注」的万亿市场

ToB行业头条

3D场景搭建的隐秘功能——时间轴

ThingJS数字孪生引擎

大前端 物联网 可视化 3D可视化 数字孪生

《原则》(四)

Changing Lin

勒索病毒卷土重来?看亚马逊云科技如何保护你的网络安全!

亚马逊云科技 (Amazon Web Services)

【立刻报名】加速开发 Perforce on Tour China 2021-龙智

龙智—DevSecOps解决方案

理解【Apache Zookeeper】

awen

zookeeper

【得物技术】JS资源分包

得物技术

CSS 大前端 js 版本 页面

Java“圣经”学累了?那就看看这些通俗易懂的内容吧

Java架构师迁哥

dubbo使用curator作为zk客户端优雅停机存在的问题

林一

zookeeper dubbo curator

极光开发者周刊【No.0604】

极光GPTBots-极光推送

程序员 开发者 IT行业

微软开源多模态聊天机器人Visual ChatGPT_开源_Anthony Alford_InfoQ精选文章