写点什么

微软开源多模态聊天机器人 Visual ChatGPT

  • 2023-05-16
    北京
  • 本文字数:1200 字

    阅读完需:约 4 分钟

微软开源多模态聊天机器人Visual ChatGPT

微软研究院最近开源了Visual ChatGPT,一个聊天机器人系统,可以根据人类的文本提示生成和处理图像。该系统将OpenAI的ChatGPT与 22 种不同的视觉基础模型(VFM)相结合,可以支持多模态交互。


arXiv 上的一篇论文对该系统进行了描述。用户可以通过输入文本或上传图片与聊天机器人互动。机器人还可以根据文本提示生成图像,或者通过处理聊天历史记录中的图像来生成图像。该聊天机器人的一个关键模块是提示词管理器(Prompt Manager),它将用户输入的原始文本组织成一个“思维链”提示词,帮助 ChatGPT 确定是否需要调用 VFM 工具来执行图像任务。据微软团队称,Visual ChatGPT 是:


一个包含各种 VFM 的开放系统,使用户能够超越语言格式与 ChatGPT 进行交互。为了构建这样一个系统,我们精心设计了一系列提示词,将视觉信息注入到 ChatGPT 中,从而逐步解决复杂的视觉问题。


ChatGPT 和其他大语言模型(LLM)已经显示出了强大的自然语言处理能力,但它们被训练成只处理一种输入模式:文本。微软并没有训练另一个新的模型来处理多模态输入,而是设计了一个 Prompt Manager 来生成输入给 ChatGPT 的文本,进而生成可以调用 VFM(如 CLIP 或Stable Diffusion)来执行计算机视觉任务的输出。


Visual ChatGPT 架构


提示词管理器基于 LangChain 代理,而 VFM 被定义为 LangChain 代理工具。为了确定是否需要调用工具,代理会结合用户提示词和对话历史记录(其中包含了图像文件名),然后应用提示词的前缀和后缀。前缀包括以下文本:


Visual ChatGPT 不能直接读取图像,但它有一些工具可用来完成不同的视觉任务。每一张图像都有一个文件名,格式为“image/xxx.png”,Visual ChatGPT 可以调用不同的工具来间接理解图像。


前缀中的附加文本会引导 ChatGPT 问自己“是否需要使用工具”,如果需要使用工具,它应该输出工具的名称以及所需的输入,例如要生成的图像文件名或图像的文本描述。代理将迭代地调用 VFM 工具,将生成的图像发送到聊天会话中,直到不再需要使用工具。此时,最后生成的文本输出将被发送到聊天会话中。


在 Hacker News 的一个帖子中,一位用户指出 VFM 使用的内存比语言模型少得多,他想知道为什么。另一位用户回复说:


图像模型可以很差,但仍然可以生成令人满意的结果。试想一下,我们可以将图像的像素随机变化 10%,我们只会看到图像质量降低了一些,但其他方面仍然是完美的。而语言模型就不是这样了,因为它们试图解决的问题要“尖锐”得多,即使它们只是偏离了一点点,都会导致结果出现严重偏差。所以我们需要一个更大的模型来获得足够的文本“清晰度”。


Visual ChatGPT源代码可在 GitHub 上获得。


原文链接:

Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT


相关阅读:

一部手机就可运行,精通 Python 等 20 种语言!谷歌终于能与 OpenAI 打擂台了,全新 PaLM 2 比肩 GPT-4

AIGC 在保险行业有哪些应用落地的可能性?

AI 时代的“身份证”要来了?ChatGPT 之父推出加密钱包 World App,并称区块链可以区分人与 AI


2023-05-16 09:2110219

评论

发布
暂无评论
发现更多内容

荣耀应用市场《应用隐私高频问题及自检指南 (第一期)》丨开发加油站

荣耀开发者服务平台

应用审核 荣耀开发者服务平台 荣耀应用市场 应用隐私合规 应用违规场景解读

Databend 十月月报:存储过程正式可用,数据流程全面自动化

Databend

党建学习一体化解决方案:答题积分 + 学习管理微擎应用详解

微擎应用市场

Scrivener 3 for Mac 功能强大的写作软件

做梦万元户

一款AB实验分析智能体是如何诞生的

京东零售技术

iA Writer for Mac 专业MD写作工具

做梦万元户

别被“万能”忽悠了!超融合选型忽视这2点,未来升级可能“寸步难行”!

智驱前线

【FAQ】HarmonyOS SDK 闭源开放能力 — Push Kit

HarmonyOS SDK

HarmonyOS SDK应用服务

A Better Finder Attributes for Mac 文件属性批量修改工具

做梦万元户

央企智变新实践,网易灵动助力世界500强集团打造无人化标杆

网易伏羲

网易伏羲 具身智能 网易灵动 工程机械智能化 无人装载机

AI 相片大师小程序:智能影像黑科技,解锁娱乐与变现双重价值

微擎应用市场

2026跨境出海新趋势:社交电商、AI赋能与可持续性成破局关键

Wolink

跨境电商 品牌营销 海外社媒营销 海外营销推广 达人营销

谷云科技深度参与编制《多源异构数据融合技术规范》团体标准,共创数据融合技术标准

谷云科技RestCloud

技术标准 数据安全 数据融合 ETL 多源异构

盘点企业级远程控制方案,哪一款最安全?

科技经济

同城洗车小程序系统:一站式洗车服务解决方案

微擎应用市场

标准文库与评审管理系统:为技术团队装上“最强大脑

上海拔俗

用Dify工作流打造你的AI测试智能体,效率提升500%

测试人

蒲公英异地组网路由器全新固件:4G联网、策略路由、日志管理全面升级

科技经济

面试官狂问的 28 个 RAG 问题全解析:从基础到架构优化,一次讲透!

测吧(北京)科技有限公司

万丈高楼平地起:从“输入-处理-输出”第一性原理,看懂系统架构的演进

poemyang

高并发系统 高并发架构

KCD 杭州站 x OpenInfra Days China 首次联手!华为云云原生团队与您共探Karmada多模板工作负载多集群管理方案

华为云原生团队

云计算 容器 云原生

当搜索遇见 AIGC:京东零售的“千人千面”素材生成实践

京东零售技术

传统企业转型之路:制造业的跨境出海实战思考

Wolink

企业出海 海外社媒营销 海外营销推广 品牌推广

真实故事分享|从全职宝妈到备考学生,他们用“碎片时间”灵活兼职、月入千元

网易伏羲

网易伏羲 数字游民 群体智能 智能货柜 网易有灵众包

用Dify工作流打造你的AI测试智能体,效率提升500%

测吧(北京)科技有限公司

「从画面生成到叙事生成:PrompTale的内容生产新范式」

极客天地

知识付费网盘变现微信小程序系统:资源变现与流量裂变解决方案

微擎应用市场

openresty中filter_by_lua使用

天翼云开发者社区

API网关

微软开源多模态聊天机器人Visual ChatGPT_开源_Anthony Alford_InfoQ精选文章