写点什么

OpenAI 放大招“对打”谷歌 Gemini:全力筹备多模态大模型,并发布新指令语言模型

  • 2023-09-20
    北京
  • 本文字数:2441 字

    阅读完需:约 8 分钟

大小:1.34M时长:07:46
OpenAI放大招“对打”谷歌Gemini:全力筹备多模态大模型,并发布新指令语言模型

这场大模型时代的较量,谁能笑到最后?

 

自去年年底通过 ChatGPT 惊艳全球以来,OpenAI 一直保持着惊人的产品发布速度,通过迅如闪电的“组合拳”保持该公司在 AI 领域建立的统治地位与领导者形象。

 

但其他科技巨头绝不可能坐视 OpenAI 一家独大。谷歌已经公布大语言模型 Gemini,计划于今年秋季首次与广大用户见面,且有报道称该模型已经在接受指定企业客户的测试。从目前的情况看,谷歌有可能后来居上、实现反超。

 

面对挑战,OpenAI 连续放大招,除了发布新指令语言模型 GPT-3.5-turbo-instruct,还计划推出多模态大模型 GPT-Vision 与 Gobi。据一位未公开身份的知情人士透露,OpenAI 在积极将多模态功能(类似于 Gemini 将要提供的功能)纳入 GPT-4。

新语言模型 InstructGPT-3.5

 

近日,OpenAI 推出 GPT-3.5-turbo-instruct,这是一款新的指令语言模型,效率可以与聊天优化的 GPT-3.5 Turbo 模型相媲美。

 

指令模型属于大语言模型的一种,会在使用一大量数据进行预训练之后,再通过人类反馈(RLHF)做进一步完善。在此过程中,会由人类负责评估模型根据用户提示词生成的输出,对结果做改进以达成目标效果,再将更新后的素材用于进一步训练。

 

因此,指令模型能够更好地理解并响应人类的查询预期,减少错误并缓解有害内容的传播。从 OpenAI 的测试结果来看,尽管体量仅为后者的百分之一,但人们明显更喜欢拥有 13 亿参数的 InstructGPT 模型,而非拥有 1750 亿参数的 GPT 模型。

 

据了解,GPT-3.5-turbo-instruct 的成本与性能同其他具有 4K 上下文窗口的 GPT-3.5 模型相同,使用的训练数据截止于 2021 年 9 月。



GPT-3.5-turbo-instruct 将取代一系列现有 Instruct 模型,外加 text-ada-001、text-babbage-001 和 text-curie-001。这三款 text-davinci 模型将于 2024 年 1 月 4 日正式停用。

 

OpenAI 表示,GPT-3.5-turbo-instruct 的训练方式与之前的其他 Instruct 模型类似。该公司并未提供新 Instruct 模型的细节或基准,而是参考了 2022 年 1 月发布的 InstructGPT,即 GPT-3.5 模型的实现基础。

 

OpenAI 称,GPT-4 拥有超越 GPT-3.5 的复杂指令遵循能力,生成的结果也比 GPT-3.5 质量更高;但 GPT-3.5 也有自己的独特优势,例如速度更快且运行成本更低。GPT-3.5-turbo-instruct 并非聊天模型,这一点与原始 GPT-3.5 有所区别。具体来讲,与之前的聊天应用模型不同,GPT-3.5-turbo-instruct 主要针对直接问答或文本补全进行优化。

 

速度方面,OpenAI 称 GPT-3.5-turbo-instruct 速度与 GPT-3.5-turbo 基本相当。

 

下图为 OpenAI 设计的 Instruct 指令模型与 Chat 聊天模型之间的区别。这种固有差异自然会对提示词的具体编写产生影响。



OpenAI 负责开发者关系的 Logan Kilpatrick 称,这套新的指令模型属于向 GPT-3.5-turbo 迁移当中的过渡性产物。他表示其并不属于“长期解决方案”。已经在使用微调模型的用户,需要根据新的模型版本做重新微调。目前微调功能只适用于 GPT-3.5,GPT-4 的微调选项计划于今年晚些时候发布。

多模态大模型 GPT-Vision 与 Gobi

 

除了 GPT-3.5-turbo-instruct,OpenAI 近日还计划发布多模态大模型 GPT-Vision,以及一个代号为“Gobi”的更强大的多模态大模型。

 

据悉,GPT-Vision 在 3 月份的 GPT-4 发布期间首次预览,是 OpenAI 融合文本和视觉领域的雄心勃勃的尝试。虽然该功能最初实际用例仅限于 Be My Eyes 公司,这家公司通过其移动应用帮助视力障碍或失明用户进行日常活动。

 

GPT-Vision 有潜力重新定义创意内容生成的界限。想象一下使用简单的文本提示生成独特的艺术品、徽标或模因。或者考虑一下对有视觉障碍的用户的好处,他们可以通过自然语言查询与视觉内容交互并理解视觉内容。该技术还有望彻底改变视觉学习和教育,使用户能够通过视觉示例学习新概念。

 

如今,OpenAI 正准备将这项名为 GPT-Vision 的功能开放给更广泛的市场受众。

 

此外,据 The Information 报道,OpenAI 即将发布代号为“Gobi”的下一代多模态大语言模型,希望借此击败谷歌并继续保持市场领先地位。目前,Gobi 的训练还没有开始,有评论认为其有机会成为 GPT-5。

 

报道称,OpenAI 之所以耗费大量时间来推出 Gobi,主要是担心新的视觉功能会被坏人利用,例如通过自动解决验证码来冒充人类,或者通过人脸识别追踪人们。但现在,OpenAI 的工程师们似乎想到办法来缓解这个安全问题了。

OpenAI CEO:GPT-5 尚未出现,计划将多模态功能纳入 GPT-4

 

据了解,多模态大语言模型的本质是一种先进 AI 系统,能够理解和处理多种数据形式,包括文本和图像。与主要处理文本内容的传统语言模型不同,多模态大语言模型能够同时对文本加视觉类内容进行分析和生成。

 

也就是说,这类模型可以解释图像、理解上下文并生成包含文本和视觉输入的响应结果。多模态大模型还拥有极高的通用性,适用于从自然语言理解到图像解释的诸多应用,借此提供更广泛的信息处理能力。

 

报道指出,“这些模型能够处理图像和文本,例如通过查看用户绘制的网站外观草图来生成网站构建代码,或者根据文本分析结果输出可视化图表。如此一来,普通用户也能快速理解内容含义,不必再向拥有技术背景的工程师们求助。”

 

OpenAI 首席执行官 Sam Altman 在最近的采访中表示,尽管 GPT-5 尚未出现,但他们正计划对 GPT-4 进行各种增强。而开放多模态支持功能,也许就是这项计划的一部分。

 

在上周接受《连线》采访时,谷歌 CEO 桑达尔·皮查伊表达了他对于谷歌当前 AI 江湖地位的信心,强调其仍掌握着技术领先优势、并在创新与责任方面求取平衡的审慎战略。他也对 OpenAI ChatGPT 的深远意义表示认可,称赞其拥有良好的产品-市场契合度、让用户对 AI 技术做好了准备。但他同时强调,谷歌在产品信任和负责态度方面会采取更加谨慎的立场。

 

参考链接:

https://the-decoder.com/openai-releases-new-language-model-instructgpt-3-5/

https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm

https://aibeat.co/openai-multimodal-llm-gpt-vision-google/

2023-09-20 14:565555

评论

发布
暂无评论
发现更多内容

2021年云计算面临的5大网络安全威胁

云计算 云安全

托管节点池助力用户构建稳定自愈的 Kubernetes 集群

阿里巴巴云原生

Docker 容器 运维 云原生 k8s

Linux-Lab 入门:使用开发板

贾献华

嵌入式 Linux Kenel 开发板 arm boot

HTTPS是怎么保证数据安全传输的?

面试 HTTP

即构自研海量有序数据网络MSDN,构建全球可靠的多云通讯链路

ZEGO即构

Idea工具的各种查找快捷键

小马哥

IntelliJ IDEA 七日更 2月春节不断更

官宣了!Apache ECharts 毕业成为 Apache 软件基金会顶级项目!

百度Geek说

百度 基金会

使用pgBackRest并行归档解决wal堆积问题

PostgreSQLChina

数据库 postgresql 开源 开源社区

《我想进大厂》之Zookeeper夺命连环9问

艾小仙

zookeeper

【mybatis】- MyBatis基础篇

双木之林

ICE暴雪正悄悄崛起

DT极客

EXCEL数据如何去重? Python:这事我比你熟

智分析

Python

利用 Python 分析了某化妆品企业的销售情况,我得出的结论是?

JackTian

Python 数据分析 数据可视化 化妆品 2月春节不断更

anyRTC2020年 年终总结

anyRTC开发者

音视频 WebRTC RTC sdk

第三周产品经理训练营总结

产品经理训练营

用RabbitMQ了好几年之后,我总结出来5点RabbitMQ的使用心得

四猿外

MQ RabbitMQ 消息队列

MySQL安装教程&问题解决

Mars

MySQL 运维

数据库表数据量大读写缓慢如何优化(4)【分库分表】

我爱娃哈哈😍

数据库 架构

产品训练营 第三次作业

Wangyunnfei

Kafka基础简介

架构精进之路

kafka 七日更 28天写作 2月春节不断更

关于自己的一个梦(飞翔)

Yuchen

后疫情时代,企业如何实现数字化增长?

字节跳动 Kubernetes 容器 云原生

新思科技:以DevOps的速度打造安全的软件

InfoQ_434670063458

DevSecOps 新思科技

华为云FusionInsight助力宇宙行打造金融数据湖新标杆

华为云开发者联盟

数据湖 云原生 存储 FusionInsight 华为云

玩转IDEA项目结构Project Structure,打Jar包、模块/依赖管理全搞定

YourBatman

Module IntelliJ IDEA Project Structure

SpringCloud 从入门到精通15---Sentinel搭建和服务监控

Felix

极客时间产品训练营第三周作业

云随心

产品 作业 产品训练营

华为18A架构师共享:Netty+Redis+zookeeper+高并发技术栈

996小迁

redis zookeeper 架构 Netty 高并发

说说常常被研发忽略的原型模式

后台技术汇

28天写作 2月春节不断更

程序员成长第一篇:机会与趋势

石云升

28天写作 2月春节不断更 机会与趋势

即日起 Jira、Confluence 正式停售本地版,中国客户将无法购买

万事ONES

项目管理 开发者 研发管理 团队协作 CTO

OpenAI放大招“对打”谷歌Gemini:全力筹备多模态大模型,并发布新指令语言模型_企业动态_凌敏_InfoQ精选文章