NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?

  • 2023-02-16
    北京
  • 本文字数:2743 字

    阅读完需:约 9 分钟

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?

自从 OpenAI 发布 ChatGPT 以来,关于它的杀手级应用会是什么,人们有很多猜测。排名第一的可能要属在线搜索。据《纽约时报》报道,谷歌的管理层已经宣布进入“红色警戒”,努力保护其在线搜索的垄断地位,以抵御 ChatGPT 将带来的冲击。


这场 ChatGPT 与谷歌搜索之间的大战,究竟谁能称王?可能不同的人心中都有不同的答案。日前,TeckTalks 博客发表评论文章认为,ChatGPT 确实是一项很棒的技术,但从现阶段来看,取代谷歌搜索还存在一定的难度。


本文最初发布于 TeckTalks 博客。


ChatGPT 是一项很棒的技术,它很有可能会重新定义我们创建以及与数字信息交互的方式。它可以有许多有趣的应用,包括在线搜索。

 

但说它将取代谷歌可能有点牵强——至少从目前来看是这样。目前,大型语言模型(LLM)在挑战搜索引擎之前还有许多问题需要解决。即使技术成熟,谷歌搜索也可能是从 LLM 中获益最多的。

LLM 与真实性


ChatGPT 非常擅长回答问题。它让你觉得自己就像是在和一个花了几百年时间汲取知识的人说话。它的输出很流畅,语法也正确,甚至可以模仿不同的演讲风格。


然而,有个问题是 ChatGPT 的答案有时候不对。事实上,它经常产生幻觉,陈述的事实完全错误。在读写能力的表象之下,ChatGPT 是一个非常先进的自动补全引擎。它会根据你的提示(和聊天记录)尝试预测接下来会发生什么。而且,即使它的答案大部分看起来是合理的,它也没有把事情做好。

 

解决 ChatGPT 输出的真实性问题将是一项重大的挑战。遗憾的是,目前还没有办法在 ChatGPT 的输出中区分幻觉和真相,除非你用其他事实来源验证它的答案(或许可以使用谷歌?)。但如果重点是使用大型语言模型作为搜索引擎的替代品,那可能会弄巧成拙。

 

现在,谷歌或其他搜索引擎所提供的所有内容都不一定是真实的。但至少,它们为你提供了可以进行验证的资源链接。而 ChatGPT 提供纯文本,不会引用实际的网站(注:在融合 ChatGPT 的最新版Bing中,会引用相关网址)。

 

一个可能的解决方案是添加一种机制,将 LLM 输出的不同部分链接到实际的网页(一些公司正在试验这种方法)。但这是一项复杂的任务,可能无法用纯基于深度学习的方法来解决。这就需要访问另一个信息源,比如搜索引擎索引数据库(这是经典搜索引擎不太可能很快失去其重要地位的原因之一)。

更新模型



ChatGPT 及其他 LLM 面临的另外一项挑战是更新知识库。搜索引擎可以借助工具和软件不断索引新页面以及修改过的页面。更新搜索引擎数据库也是一项非常高效的操作。

 

但对于大型语言模型,添加新知识需要重新训练模型。也许不是每次更新都需要重新训练,但与在搜索引擎数据库中添加和修改记录相比,其成本要高得多。如果你想了解最新的新闻,就得每天做很多次。

 

ChatGPT 基于 GPT 3.5 构建,它可能至少有 1750 亿个参数。由于任何一个单独的硬件都无法运行这个模型,所以必须将其分解并分布在几个处理器上,比如 A100 GPU。配置这些处理器并行训练和运行模型不管在技术上还是财务上都是不小的挑战。

 

LLM 搜索引擎的运营商还需要有机制和工具,来确定哪些网络资源是可靠的知识源并应优先考虑。再一次,我们看到了搜索引擎组件的踪迹。

速度挑战


LLM 还存在推理速度的问题。像谷歌这样的公司已经创建了高度优化的数据库基础设施,可以在不到一秒钟的时间内找到数百万个答案。像 ChatGPT 这样的 LLM 则需要几秒钟来撰写回复。


搜索引擎不需要为每个查询浏览整个数据集。它们有索引、排序和搜索算法,可以非常快的定位到正确的记录。因此,尽管在线信息的数量在增长,但搜索引擎的速度并没有下降。

 

另一方面,LLM 每次收到提示时都会浏览整个神经网络的信息。诚然,神经网络的规模无法与搜索引擎数据库相比。但是,计算量仍然比查询索引大很多。鉴于深度神经网络的非线性性质,并行化推理操作的程度是有限的。随着 LLM 训练语料库的增长,模型也必须变得更大,才能在其知识库中很好地泛化。

ChatGPT 的商业模式


不过,基于 LLM 的搜索引擎最大的挑战可能是商业模式。谷歌在其搜索引擎上建立了一个广告帝国。

 

谷歌搜索并不是一个完美的商业模式。人们很少会点击那些越来越多地出现在搜索引擎结果页面上方的广告。但谷歌在在线搜索市场的份额如此之大,所以即使点击率很低,它每年也能赚上数十亿美元。

 

谷歌还可以根据从用户那里收集的数据来个性化搜索结果和广告。这使得它的业务更加高效和有利可图。别忘了谷歌还有许多其他产品,包括 YouTube、Gmail、Chrome 和 Android,可以强化它为用户创建的数字档案。它的广告网络也扩展到了网站和其他媒体。

 

基本上,谷歌控制着市场的两端:内容搜寻者和广告商。通过控制整个市场,它成功地创造了一个自我强化的循环。在这个循环中,它收集了更多的数据,改善了搜索结果,并提供了更多相关的广告。

 

作为一个潜在的搜索引擎,ChatGPT 还没有一个商业模式,而且成本很高。粗略估计,在 100 万用户的情况下,ChatGPT 每天的成本为 10 万美元,每月约为 300 万美元。


据我估计,运行 ChatGPT 的成本是每天 10 万美元或每月 300 万美元。这是一个粗略的计算。我是假设节点都总是在使用,批处理大小为 1。而实际上,它们可能在访问量大时进行批处理,而在访问量小时会有 GPU 处于空闲状态。

—— Tom Goldstein (@tomgoldsteincs)2022 年 12 月 6 日

 

现在想象一下,当人们每天运行 80 亿个搜索查询时会发生什么。现在,再加上定期训练模型的成本,以及通过强化学习和人类反馈来优化模型所需的人工劳动。

 

训练和运行像 ChatGPT 这样的大型语言模型的成本是如此之高,以至于让它发挥作用将成为大型科技公司的专利,这些公司可以在没有明确商业模式的无利可图的产品上投入大量资金。

 

盈利的一个可能途径是将 LLM 作为像 Codex GPT-3 那样的付费 API 交付。但这并不是搜索引擎的传统商业模式,我不确定它们将如何做到这一点。另一种方法是将其作为一些问答功能集成到微软 Bing 中,但这将使其与谷歌搜索相提并论,而不是提供一个可以颠覆搜索市场的不同系统。

ChatGPT 是一个搜索引擎吗?


很多人都在谈论 ChatGPT 将成为万能助手,可以回答任何问题,这在逻辑上引出了它将取代谷歌搜索的想法。

 

但是,尽管拥有一个可以回答问题的人工智能系统非常有用(假设 OpenAI 解决了它的问题),但这并不是在线搜索的全部。谷歌搜索有缺陷,它会显示很多没用的广告,也会返回很多没用的结果。但这是一个价值不可估量的工具。

 

大多数时候,当我使用谷歌搜索时,我甚至不知道正确的问题是什么。我只是把一堆关键字混在一起,看看结果,做一些研究,然后缩小或修改搜索。在我看来,这种应用还不是一个非常有效的问答模型所能取代的。

 

表面看来,ChatGPT 或其他类似的 LLM 将成为在线搜索引擎的补充。最终,它们很可能会强化现有搜索巨头的地位,因为这些巨头拥有训练和运营它们的资金、基础设施和数据。

 

原文链接:https://bdtechtalks.com/2023/01/02/chatgpt-google-search/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-02-16 11:132683

评论

发布
暂无评论
发现更多内容

SpringCloudRPC远程调用核心原理:代理模式与RPC客户端实现类

小Q

Java 学习 架构 面试

并发王者课-青铜1:兵分三路-从创建线程开始

MetaThoughts

Java 多线程 高并发 Java高并发 每周二四六更新

从火星的古海洋,读懂蓝星的数据湖之变

脑极体

从非洲血库到热带雨林:为什么普惠联接是社会的数字化支点?

脑极体

阿里工作6年,熬到P7就剩这份学习笔记了,已助朋友拿到7个Offer

Java 程序员 架构 面试

Python 协程

若尘

协程 Python编程 5月日更

看完这个刷题笔记与代码规范,距大厂又近了一步!值得收藏!

C语言与CPP编程

c++ 程序人生 算法 C语言 代码规范

因你不同,2021 阿里云开发者大会重磅开启 @ 所有开发者!

阿里巴巴云原生

开发者 云原生 活动

android插件化面试,渣本逆袭大厂面经分享,震撼来袭免费下载!

欢喜学安卓

android 程序员 面试 移动开发

世界电信日 | 英特尔5G赋能数字化转型的实现之道

E科讯

数字化战争即将开启,区块链将成为有效防护壁垒

CECBC

上架Google Play应用如何适配Android 11?

YonBuilder低代码开发平台

金三银四面试结束后,整理的1000道Java面试题及答案

Java 程序员 架构 面试

60个适合练手的C语言/C++项目,值得收藏!

C语言与CPP编程

c++ 源码 C语言

Vineyard 加入 CNCF Sandbox,将继续瞄准云原生大数据分析领域

阿里巴巴云原生

大数据 容器 开发者 云原生 存储

明天重新杨帆起航

IT蜗壳-Tango

5月日更

你是否想要自由地构筑世界?51WORLD助力数字孪生开发者快速成长

Meta 小元

开发者工具 开发者关系 数字孪生 全要素场景

5分钟速读之Rust权威指南(四)

wzx

JavaScript rust

怎么学

Nydia

学习

Flink CEP 监测刷屏用户

五分钟学大数据

flink 5月日更

位列第五大生产要素,大数据该如何突破隐私安全魔咒?

CECBC

C语言与C++学习路线、书籍、视频推荐和资料,值得收藏!

C语言与CPP编程

c++ 学习 C语言 视频 资料

ConcurrentHashMap

ltc

ConcurrentHashMap

架构实战营 - 模块 4- 作业

carl

2千亿级超大模型的构建,能否突破中文场景的极限

这不科技

人工智能 nlp

Redis后端之Redis持久化

赖猫

redis 后端 LinuxC/C++

面试让HR都能听懂的MySQL锁机制详解

linux大本营

MySQL 数据库 Linux 后台开发

Flink常见数据源

大数据技术指南

大数据 flink 5月日更

一文读懂微前端架构

EAWorld

博睿数据与阿里云签订云原生核心合作伙伴计划,推动企业智能运维落地

阿里巴巴云原生

人工智能 容器 微服务 运维 云原生

Android面试题!深入理解JVM的核心知识点,值得一读!

欢喜学安卓

android 程序员 面试 移动开发

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?_AI&大模型_Ben Dickson_InfoQ精选文章