【FCon上海】与行业领袖共话AI大模型、数字化风控等前沿技术。 了解详情
写点什么

微软开源多模态聊天机器人 Visual ChatGPT

  • 2023-05-16
    北京
  • 本文字数:1200 字

    阅读完需:约 4 分钟

微软开源多模态聊天机器人Visual ChatGPT

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

微软研究院最近开源了Visual ChatGPT,一个聊天机器人系统,可以根据人类的文本提示生成和处理图像。该系统将OpenAI的ChatGPT与 22 种不同的视觉基础模型(VFM)相结合,可以支持多模态交互。


arXiv 上的一篇论文对该系统进行了描述。用户可以通过输入文本或上传图片与聊天机器人互动。机器人还可以根据文本提示生成图像,或者通过处理聊天历史记录中的图像来生成图像。该聊天机器人的一个关键模块是提示词管理器(Prompt Manager),它将用户输入的原始文本组织成一个“思维链”提示词,帮助 ChatGPT 确定是否需要调用 VFM 工具来执行图像任务。据微软团队称,Visual ChatGPT 是:


一个包含各种 VFM 的开放系统,使用户能够超越语言格式与 ChatGPT 进行交互。为了构建这样一个系统,我们精心设计了一系列提示词,将视觉信息注入到 ChatGPT 中,从而逐步解决复杂的视觉问题。


ChatGPT 和其他大语言模型(LLM)已经显示出了强大的自然语言处理能力,但它们被训练成只处理一种输入模式:文本。微软并没有训练另一个新的模型来处理多模态输入,而是设计了一个 Prompt Manager 来生成输入给 ChatGPT 的文本,进而生成可以调用 VFM(如 CLIP 或Stable Diffusion)来执行计算机视觉任务的输出。


Visual ChatGPT 架构


提示词管理器基于 LangChain 代理,而 VFM 被定义为 LangChain 代理工具。为了确定是否需要调用工具,代理会结合用户提示词和对话历史记录(其中包含了图像文件名),然后应用提示词的前缀和后缀。前缀包括以下文本:


Visual ChatGPT 不能直接读取图像,但它有一些工具可用来完成不同的视觉任务。每一张图像都有一个文件名,格式为“image/xxx.png”,Visual ChatGPT 可以调用不同的工具来间接理解图像。


前缀中的附加文本会引导 ChatGPT 问自己“是否需要使用工具”,如果需要使用工具,它应该输出工具的名称以及所需的输入,例如要生成的图像文件名或图像的文本描述。代理将迭代地调用 VFM 工具,将生成的图像发送到聊天会话中,直到不再需要使用工具。此时,最后生成的文本输出将被发送到聊天会话中。


在 Hacker News 的一个帖子中,一位用户指出 VFM 使用的内存比语言模型少得多,他想知道为什么。另一位用户回复说:


图像模型可以很差,但仍然可以生成令人满意的结果。试想一下,我们可以将图像的像素随机变化 10%,我们只会看到图像质量降低了一些,但其他方面仍然是完美的。而语言模型就不是这样了,因为它们试图解决的问题要“尖锐”得多,即使它们只是偏离了一点点,都会导致结果出现严重偏差。所以我们需要一个更大的模型来获得足够的文本“清晰度”。


Visual ChatGPT源代码可在 GitHub 上获得。


原文链接:

Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT


相关阅读:

一部手机就可运行,精通 Python 等 20 种语言!谷歌终于能与 OpenAI 打擂台了,全新 PaLM 2 比肩 GPT-4

AIGC 在保险行业有哪些应用落地的可能性?

AI 时代的“身份证”要来了?ChatGPT 之父推出加密钱包 World App,并称区块链可以区分人与 AI


公众号推荐:

AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

2023-05-16 09:219583

评论

发布
暂无评论
发现更多内容

网络堵塞?华为云CDN为你带来一站式解决方案

i生活i科技

CDN

国产 ETL 工具 etl-engine

weigeonlyyou

postgresql Prometheus Clickhouse MySQL 数据库 InfluxDB Cluster

从非洲到全球,看华为云连接CC如何助力出海企业更好发展

科技之光

华为云全球加速GA,赋能现代企业出海加速发展

科技之光

轻松解决企业数据高延时,华为云全球加速GA使用更灵活!

科技之光

osx安装mpd和ncmpcpp

alps2006

macos

Portraiture2023汉化中文版磨皮滤镜软件下载

茶色酒

Portraiture2023 Portraiture

Java高手速成│实战:应用数据库和GUI开发产品销售管理软件(1)

TiAmo

JDBC GUI 数据库·

《我有一个朋友》首集上线,曹操出行CEO讲述热爱经历

Geek_2d6073

架构训练营 模块六

张建闯

架构实战营

CorelDRAW2023最新绿色免费版矢量图形处理软件

茶色酒

CorelDraw2023 CorelDraw

CleanMyMacX2023永久版Mac系统清理软件

茶色酒

CleanMyMac CleanMyMac X CleanMyMac X2023

华为云全球加速GA,敲开企业跨境业务的大门

科技之光

华为云大数据BI赋能企业数字化发展

i生活i科技

2023-01-02:某天,小美在玩一款游戏,游戏开始时,有n台机器, 每台机器都有一个能量水平,分别为a1、a2、…、an, 小美每次操作可以选其中的一台机器,假设选的是第i台, 那小美可以将其变成

福大大架构师每日一题

算法 rust Solidity 福大大

模块四-考试试卷存储方案

悟空

存储 考试

勿以善小而不为,让AI成为温柔的力量

wood

AI 烟火气 温柔

华为云全球加速GA的“加速”,你真的了解嘛?

科技之光

外包学生管理系统架构设计

陈天境

架构实战营模块四作业

张Dave

5个接口性能提升的通用技巧

JAVA旭阳

Java

常见的Web安全攻击

穿过生命散发芬芳

HTTP 1月月更

朋友圈的架构设计

lory(侯保国)

LinearLayout(线性布局)

芯动大师

Android Studio android布局 LinearLayout weight属性

架构训练营 模块五

张建闯

架构实战营

Thanos 升级顺序分析

耳东@Erdong

Prometheus 版本 Thanos 升级迭代

红海竞争下,华为云CDN凭借什么冲出重围?

i生活i科技

CDN

华为云双十一、双十二系列直播圆满收官,助力企业获数智化发展商机

i生活i科技

CDN

在Windows绿色安装Go

独钓寒江

企业数字化转型?华为云CDN为你提供智能加速!

i生活i科技

CDN

能够释放大量Mac内存空间的方法教程

茶色酒

CleanMyMac X CleanMyMac X2023

微软开源多模态聊天机器人Visual ChatGPT_开源_Anthony Alford_InfoQ精选文章