写点什么

微软开源多模态聊天机器人 Visual ChatGPT

  • 2023-05-16
    北京
  • 本文字数:1200 字

    阅读完需:约 4 分钟

微软开源多模态聊天机器人Visual ChatGPT

微软研究院最近开源了Visual ChatGPT,一个聊天机器人系统,可以根据人类的文本提示生成和处理图像。该系统将OpenAI的ChatGPT与 22 种不同的视觉基础模型(VFM)相结合,可以支持多模态交互。


arXiv 上的一篇论文对该系统进行了描述。用户可以通过输入文本或上传图片与聊天机器人互动。机器人还可以根据文本提示生成图像,或者通过处理聊天历史记录中的图像来生成图像。该聊天机器人的一个关键模块是提示词管理器(Prompt Manager),它将用户输入的原始文本组织成一个“思维链”提示词,帮助 ChatGPT 确定是否需要调用 VFM 工具来执行图像任务。据微软团队称,Visual ChatGPT 是:


一个包含各种 VFM 的开放系统,使用户能够超越语言格式与 ChatGPT 进行交互。为了构建这样一个系统,我们精心设计了一系列提示词,将视觉信息注入到 ChatGPT 中,从而逐步解决复杂的视觉问题。


ChatGPT 和其他大语言模型(LLM)已经显示出了强大的自然语言处理能力,但它们被训练成只处理一种输入模式:文本。微软并没有训练另一个新的模型来处理多模态输入,而是设计了一个 Prompt Manager 来生成输入给 ChatGPT 的文本,进而生成可以调用 VFM(如 CLIP 或Stable Diffusion)来执行计算机视觉任务的输出。


Visual ChatGPT 架构


提示词管理器基于 LangChain 代理,而 VFM 被定义为 LangChain 代理工具。为了确定是否需要调用工具,代理会结合用户提示词和对话历史记录(其中包含了图像文件名),然后应用提示词的前缀和后缀。前缀包括以下文本:


Visual ChatGPT 不能直接读取图像,但它有一些工具可用来完成不同的视觉任务。每一张图像都有一个文件名,格式为“image/xxx.png”,Visual ChatGPT 可以调用不同的工具来间接理解图像。


前缀中的附加文本会引导 ChatGPT 问自己“是否需要使用工具”,如果需要使用工具,它应该输出工具的名称以及所需的输入,例如要生成的图像文件名或图像的文本描述。代理将迭代地调用 VFM 工具,将生成的图像发送到聊天会话中,直到不再需要使用工具。此时,最后生成的文本输出将被发送到聊天会话中。


在 Hacker News 的一个帖子中,一位用户指出 VFM 使用的内存比语言模型少得多,他想知道为什么。另一位用户回复说:


图像模型可以很差,但仍然可以生成令人满意的结果。试想一下,我们可以将图像的像素随机变化 10%,我们只会看到图像质量降低了一些,但其他方面仍然是完美的。而语言模型就不是这样了,因为它们试图解决的问题要“尖锐”得多,即使它们只是偏离了一点点,都会导致结果出现严重偏差。所以我们需要一个更大的模型来获得足够的文本“清晰度”。


Visual ChatGPT源代码可在 GitHub 上获得。


原文链接:

Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT


相关阅读:

一部手机就可运行,精通 Python 等 20 种语言!谷歌终于能与 OpenAI 打擂台了,全新 PaLM 2 比肩 GPT-4

AIGC 在保险行业有哪些应用落地的可能性?

AI 时代的“身份证”要来了?ChatGPT 之父推出加密钱包 World App,并称区块链可以区分人与 AI


2023-05-16 09:219935

评论

发布
暂无评论
发现更多内容

九章云极DataCanvas公司入选沙利文权威报告领先代表厂商

九章云极DataCanvas

缺陷处理流程的最佳实践

测吧(北京)科技有限公司

测试

2024 百度安全月圆满收官:让百度更安全,让用户更放心

百度安全

如何建立一个完善的缺陷管理流程?

测吧(北京)科技有限公司

测试

这些售后管理的问题,你遇到过多少?

天津汇柏科技有限公司

低代码 软件定制开发 售后 AI 人工智能

融云出海城市沙龙干货分享:电商、社交泛娱的破局之道

融云 RongCloud

软件测试的核心原则:确保质量的六大基石

测吧(北京)科技有限公司

测试

DORA指标实施反模式:如何避免正确实施DORA

俞凡

DevOps 最佳实践 DORA

Volcano新版本发布:10大功能提升统一调度和细粒度资源管理能力

华为云开发者联盟

Volcano 批量计算 云原生‘’ #GPU kubernetes pod

如何构建高效的用例管理平台:测试过程的全面优化

测吧(北京)科技有限公司

测试

人工智能 | 基于ChatGPT开发人工智能服务平台

测吧(北京)科技有限公司

测试

软件测试的对象:从单元到系统,全方位覆盖的测试层级

测吧(北京)科技有限公司

测试

联想ThinkPad与英特尔携手亮相2024抖音创作者大会,加速生成式AI创作

科技范儿

HarmonyOS NEXT实战电话拨打

李洋-蛟龙腾飞

HarmonyOS NEXT

聊聊性能基准测试和容量评估规划

老张

性能测试 容量规划 基准测试

Mint 101: 全面解读 Mint Blockchain 生态和参与指南

NFT Research

blockchain NFT\ 空投

技术解读:华为云如何携手昇腾、鸿蒙等根生态,助力开发者技术创新

华为云开发者联盟

华为云 鲲鹏计算 大模型 昇腾

融云携高潜市场出海攻略亮相「2024 拉美中东北非出海峰会」

融云 RongCloud

“2024年网络安全国家标准贯标深度行(互联网行业—百度站)”活动在北京举办

百度安全

缺陷管理的全面剖析:从发现到修复,优化软件产品质量

测吧(北京)科技有限公司

测试

Karmada新版本发布,支持联邦应用跨集群滚动升级

华为云开发者联盟

容器 Karmada Kubernetes Serverless 开源、 云原生‘’

《华为云DTSE》期刊免费下载:10个案例读懂云上架构升级策略

华为云开发者联盟

php 元宇宙 人工智能’ 华为云DTSE 云原生‘’

缺陷修复之后如何做验证?

测吧(北京)科技有限公司

测试

Git fetch、pull 傻傻分不清楚?

极狐GitLab

git gitlab 代码托管 版本管理

软件缺陷处理为什么那么重要?

测吧(北京)科技有限公司

测试

用实力说话!望繁信科技与创鑫激光达成战略合作

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能

探索AI新境界!昇腾AI原生创新算子挑战赛(S2赛季)决赛顺利闭幕

极客天地

百万度算力,限时免费送送送送送!

九章云极DataCanvas

ECCV 2024 | 融合跨模态先验与扩散模型,快手处理大模型让视频画面更清晰!

快手技术

音视频开发 大模型

线上事故案例集:从分析到预防的全方位指南

巧手打字通

后端 事故 风险管理 事故复盘 安全研发

微软开源多模态聊天机器人Visual ChatGPT_开源_Anthony Alford_InfoQ精选文章