2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

微软开源多模态聊天机器人 Visual ChatGPT

  • 2023-05-16
    北京
  • 本文字数:1200 字

    阅读完需:约 4 分钟

微软开源多模态聊天机器人Visual ChatGPT

微软研究院最近开源了Visual ChatGPT,一个聊天机器人系统,可以根据人类的文本提示生成和处理图像。该系统将OpenAI的ChatGPT与 22 种不同的视觉基础模型(VFM)相结合,可以支持多模态交互。


arXiv 上的一篇论文对该系统进行了描述。用户可以通过输入文本或上传图片与聊天机器人互动。机器人还可以根据文本提示生成图像,或者通过处理聊天历史记录中的图像来生成图像。该聊天机器人的一个关键模块是提示词管理器(Prompt Manager),它将用户输入的原始文本组织成一个“思维链”提示词,帮助 ChatGPT 确定是否需要调用 VFM 工具来执行图像任务。据微软团队称,Visual ChatGPT 是:


一个包含各种 VFM 的开放系统,使用户能够超越语言格式与 ChatGPT 进行交互。为了构建这样一个系统,我们精心设计了一系列提示词,将视觉信息注入到 ChatGPT 中,从而逐步解决复杂的视觉问题。


ChatGPT 和其他大语言模型(LLM)已经显示出了强大的自然语言处理能力,但它们被训练成只处理一种输入模式:文本。微软并没有训练另一个新的模型来处理多模态输入,而是设计了一个 Prompt Manager 来生成输入给 ChatGPT 的文本,进而生成可以调用 VFM(如 CLIP 或Stable Diffusion)来执行计算机视觉任务的输出。


Visual ChatGPT 架构


提示词管理器基于 LangChain 代理,而 VFM 被定义为 LangChain 代理工具。为了确定是否需要调用工具,代理会结合用户提示词和对话历史记录(其中包含了图像文件名),然后应用提示词的前缀和后缀。前缀包括以下文本:


Visual ChatGPT 不能直接读取图像,但它有一些工具可用来完成不同的视觉任务。每一张图像都有一个文件名,格式为“image/xxx.png”,Visual ChatGPT 可以调用不同的工具来间接理解图像。


前缀中的附加文本会引导 ChatGPT 问自己“是否需要使用工具”,如果需要使用工具,它应该输出工具的名称以及所需的输入,例如要生成的图像文件名或图像的文本描述。代理将迭代地调用 VFM 工具,将生成的图像发送到聊天会话中,直到不再需要使用工具。此时,最后生成的文本输出将被发送到聊天会话中。


在 Hacker News 的一个帖子中,一位用户指出 VFM 使用的内存比语言模型少得多,他想知道为什么。另一位用户回复说:


图像模型可以很差,但仍然可以生成令人满意的结果。试想一下,我们可以将图像的像素随机变化 10%,我们只会看到图像质量降低了一些,但其他方面仍然是完美的。而语言模型就不是这样了,因为它们试图解决的问题要“尖锐”得多,即使它们只是偏离了一点点,都会导致结果出现严重偏差。所以我们需要一个更大的模型来获得足够的文本“清晰度”。


Visual ChatGPT源代码可在 GitHub 上获得。


原文链接:

Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT


相关阅读:

一部手机就可运行,精通 Python 等 20 种语言!谷歌终于能与 OpenAI 打擂台了,全新 PaLM 2 比肩 GPT-4

AIGC 在保险行业有哪些应用落地的可能性?

AI 时代的“身份证”要来了?ChatGPT 之父推出加密钱包 World App,并称区块链可以区分人与 AI


2023-05-16 09:2110200

评论

发布
暂无评论
发现更多内容

MyEMS 能效协同机制的构建与实践

开源能源管理系统

开源 能源管理系统

汽车之家联合HarmonyOS SDK,深度构建鸿蒙生态体系

HarmonyOS SDK

HarmonyOS NEXT HarmonyOS SDK应用服务

Web网页端即时通讯源码/IM聊天源码RainbowChat-Web

JackJiang

网络编程 即时通讯 IM

2025陕西正规等保测评公司名单看这里!

行云管家

网络安全 等保 等保评测

普通人多跳槽才是正确选择?

王中阳Go

程序员 跳槽时间点

Flutter跨端开发范式重构:小程序与App高效组装战略

xuyinyin

不同阶段的出海品牌,该如何制定红人营销策略?

Wolink

海外媒体 海外推广 达人营销

业务监控—一站式搭建jmeter+telegraf+influxdb+Grafana看板

京东科技开发者

“用友BIP 5”重磅发布,让AI在企业应用落地

人称T客

全城狂欢:南京移动5G-A让热爱不再等待

极客天地

架构提效的矛盾和矛盾的主要方面

京东科技开发者

前端开发中依赖包有问题怎么办

京东科技开发者

如何防护CC攻击

德迅云安全杨德俊

破解BOM管理难题:MES信息化实施中BOM管理问题​

万界星空科技

数字化 制造业 生产管理系统 BOM mes

curl Rustls后端缓冲区溢出漏洞技术分析

qife122

curl 缓冲区溢出

不只是告警:用阿里云可观测 MCP 实现 AK 高效安全审计

阿里巴巴云原生

阿里云 云原生 可观测 MCP

跨境电商企业的海外舆情监测痛点与解决路径

沃观Wovision

跨境电商 沃观Wovision 舆情监测系统 海外舆情监测

2025混合应用开发战略引擎 成本重构与效能跃迁的双轨路径

xuyinyin

看见才能管住:银行数据安全风险监测与治理

原点安全

AiLock勒索病毒全面解析:运作机制与防御策略

qife122

数据保护 勒索病毒

Eventlog Analyzer 怎么帮助企业满足合规性?

运维有小邓

超越预算,打开企业预算管理新思维

智达方通

成本管理 预算管理 预算管理信息化 成本预算管理

26届双非上岸记!快手之战~

王磊

使用Cyb3rWard0g的Sentinel To-Go快速部署Azure Sentinel——捕获Cobalt Strike攻击!

qife122

Azure Sentinel Cobalt Strike

电信业网络安全保障方法小探讨

行云管家

网络安全 等保

万字长文|AI智能体与模型进化:如何在企业落地中平衡创新与风险

JustYan

LLM AI Agent Agentic AI Self-Evolving

企业如何利用 MyEMS 开源能源管理系统实现节能减排

开源能源管理系统

开源 能源管理系统

MyEMS:开源基因驱动的能源管理范式革命

开源能源管理系统

开源 能源管理系统

微店商品列表API开发指南

tbapi

微店API 微店商品列表接口 微店数据采集

菜鸟启用香港最大航空货运枢纽,全面覆盖RFID提速全球快递

斯科信息

菜鸟 斯科信息 RFID技术

微软开源多模态聊天机器人Visual ChatGPT_开源_Anthony Alford_InfoQ精选文章