微软开源多模态聊天机器人Visual ChatGPT_开源_Anthony Alford_InfoQ精选文章

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

登录/注册

微软开源多模态聊天机器人Visual ChatGPT

微软研究院最近开源了Visual ChatGPT，一个聊天机器人系统，可以根据人类的文本提示生成和处理图像。该系统将OpenAI的ChatGPT与 22 种不同的视觉基础模型（VFM）相结合，可以支持多模态交互。

arXiv 上的一篇论文对该系统进行了描述。用户可以通过输入文本或上传图片与聊天机器人互动。机器人还可以根据文本提示生成图像，或者通过处理聊天历史记录中的图像来生成图像。该聊天机器人的一个关键模块是提示词管理器（Prompt Manager），它将用户输入的原始文本组织成一个“思维链”提示词，帮助 ChatGPT 确定是否需要调用 VFM 工具来执行图像任务。据微软团队称，Visual ChatGPT 是：

一个包含各种 VFM 的开放系统，使用户能够超越语言格式与 ChatGPT 进行交互。为了构建这样一个系统，我们精心设计了一系列提示词，将视觉信息注入到 ChatGPT 中，从而逐步解决复杂的视觉问题。

ChatGPT 和其他大语言模型（LLM）已经显示出了强大的自然语言处理能力，但它们被训练成只处理一种输入模式：文本。微软并没有训练另一个新的模型来处理多模态输入，而是设计了一个 Prompt Manager 来生成输入给 ChatGPT 的文本，进而生成可以调用 VFM（如 CLIP 或Stable Diffusion）来执行计算机视觉任务的输出。

Visual ChatGPT 架构

提示词管理器基于 LangChain 代理，而 VFM 被定义为 LangChain 代理工具。为了确定是否需要调用工具，代理会结合用户提示词和对话历史记录（其中包含了图像文件名），然后应用提示词的前缀和后缀。前缀包括以下文本：

Visual ChatGPT 不能直接读取图像，但它有一些工具可用来完成不同的视觉任务。每一张图像都有一个文件名，格式为“image/xxx.png”，Visual ChatGPT 可以调用不同的工具来间接理解图像。

前缀中的附加文本会引导 ChatGPT 问自己“是否需要使用工具”，如果需要使用工具，它应该输出工具的名称以及所需的输入，例如要生成的图像文件名或图像的文本描述。代理将迭代地调用 VFM 工具，将生成的图像发送到聊天会话中，直到不再需要使用工具。此时，最后生成的文本输出将被发送到聊天会话中。

在 Hacker News 的一个帖子中，一位用户指出 VFM 使用的内存比语言模型少得多，他想知道为什么。另一位用户回复说：

图像模型可以很差，但仍然可以生成令人满意的结果。试想一下，我们可以将图像的像素随机变化 10%，我们只会看到图像质量降低了一些，但其他方面仍然是完美的。而语言模型就不是这样了，因为它们试图解决的问题要“尖锐”得多，即使它们只是偏离了一点点，都会导致结果出现严重偏差。所以我们需要一个更大的模型来获得足够的文本“清晰度”。

Visual ChatGPT源代码可在 GitHub 上获得。

原文链接：

Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT

相关阅读：

一部手机就可运行，精通 Python 等 20 种语言！谷歌终于能与 OpenAI 打擂台了，全新 PaLM 2 比肩 GPT-4

AIGC 在保险行业有哪些应用落地的可能性？

AI 时代的“身份证”要来了？ChatGPT 之父推出加密钱包 World App，并称区块链可以区分人与 AI

评论

发布

暂无评论

保姆级人工智能学习成长路径

AI 引航计划内容合集

OpenKruise 如何实现应用的可用性防护？

阿里巴巴云原生

阿里云开源云原生 OpenKruise

disruptor在数据同步场景下的应用实战

编程架构面试后端

自定义Vue脚手架模板之：Vue-Cli源码分析

源码 vue cli 10月月更

【Flutter 专题】35 图解自定义 View 之 Canvas (三)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 10月月更

netty系列之:使用netty搭建websocket客户端

程序那些事

Java Netty websocket 程序那些事

源码 | 为金融场景而生的数据类型：Numeric

数据库 postgresql

VSCode设置Python的unittest测试

何时适合进行自动化测试？（上）

禅道项目管理

自动化测试

定制个机器人帮你和Ta聊天

golang chatbot 聊天机器人微信聊天

Vue进阶（幺贰柒）：插槽详解

No Silver Bullet

Vue 插槽 10月月更

为了减少代码复杂度，我将if-else升级为面向状态编程

华为云开发者联盟

编程复杂度面向状态编程 if-else

决策树——从原理走向实战

AI 引航计划

【设计模式】第一篇 - 组合模式

组合模式 10月月更

【布隆过滤】大数据+查重过滤+爬虫领域精选算法

AI 引航计划

架构实战营作业 -- 模块四

TensorFlow by GoogleCNN识别猫和狗, 过拟合优化易筋 ARTS 打卡 Week 70

ARTS 打卡计划

Form Schema 定义详解

全象云低代码

大前端低代码平台 JSON Schema

Interrupted Exception异常可能没你想的那么简单！

华为云开发者联盟

线程 JVM 高并发并发ｊａｖａ

推荐2个网站，牛x就完事了！

仁兄，可曾听闻OpenVINO

AI 引航计划

从头开始（概率）学HMM：精讲第四课-预测问题（维特比算法）

AI 引航计划内容合集

从头开始（概率）学HMM：精讲第五课-EM算法

AI 引航计划内容合集

【LeetCode】重复的DNA序列Java题解

算法 LeetCode 10月月更

如虎添翼！6款备受欢迎的Edge浏览器插件

基于深度学习的医学图像分割（一）

AI 引航计划

从头开始（概率）学HMM：精讲第三课-概率计算问题

AI 引航计划内容合集

智慧火电扭转传统运作模式，3D可视化助力双碳政策疾行

一只数据鲸鱼

数据可视化智慧能源火力发电智慧火电火电厂

010云原生之可观测架构模式

穿过生命散发芬芳

云原生 10月月更

业界首个机密计算容器运行时—Inclavare Containers正式进入CNCF！

阿里巴巴云原生

阿里云容器云原生

mysql cpu占用超过100%