写点什么

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?

  • 2023-02-16
    北京
  • 本文字数:2743 字

    阅读完需:约 9 分钟

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?

自从 OpenAI 发布 ChatGPT 以来,关于它的杀手级应用会是什么,人们有很多猜测。排名第一的可能要属在线搜索。据《纽约时报》报道,谷歌的管理层已经宣布进入“红色警戒”,努力保护其在线搜索的垄断地位,以抵御 ChatGPT 将带来的冲击。


这场 ChatGPT 与谷歌搜索之间的大战,究竟谁能称王?可能不同的人心中都有不同的答案。日前,TeckTalks 博客发表评论文章认为,ChatGPT 确实是一项很棒的技术,但从现阶段来看,取代谷歌搜索还存在一定的难度。


本文最初发布于 TeckTalks 博客。


ChatGPT 是一项很棒的技术,它很有可能会重新定义我们创建以及与数字信息交互的方式。它可以有许多有趣的应用,包括在线搜索。

 

但说它将取代谷歌可能有点牵强——至少从目前来看是这样。目前,大型语言模型(LLM)在挑战搜索引擎之前还有许多问题需要解决。即使技术成熟,谷歌搜索也可能是从 LLM 中获益最多的。

LLM 与真实性


ChatGPT 非常擅长回答问题。它让你觉得自己就像是在和一个花了几百年时间汲取知识的人说话。它的输出很流畅,语法也正确,甚至可以模仿不同的演讲风格。


然而,有个问题是 ChatGPT 的答案有时候不对。事实上,它经常产生幻觉,陈述的事实完全错误。在读写能力的表象之下,ChatGPT 是一个非常先进的自动补全引擎。它会根据你的提示(和聊天记录)尝试预测接下来会发生什么。而且,即使它的答案大部分看起来是合理的,它也没有把事情做好。

 

解决 ChatGPT 输出的真实性问题将是一项重大的挑战。遗憾的是,目前还没有办法在 ChatGPT 的输出中区分幻觉和真相,除非你用其他事实来源验证它的答案(或许可以使用谷歌?)。但如果重点是使用大型语言模型作为搜索引擎的替代品,那可能会弄巧成拙。

 

现在,谷歌或其他搜索引擎所提供的所有内容都不一定是真实的。但至少,它们为你提供了可以进行验证的资源链接。而 ChatGPT 提供纯文本,不会引用实际的网站(注:在融合 ChatGPT 的最新版Bing中,会引用相关网址)。

 

一个可能的解决方案是添加一种机制,将 LLM 输出的不同部分链接到实际的网页(一些公司正在试验这种方法)。但这是一项复杂的任务,可能无法用纯基于深度学习的方法来解决。这就需要访问另一个信息源,比如搜索引擎索引数据库(这是经典搜索引擎不太可能很快失去其重要地位的原因之一)。

更新模型



ChatGPT 及其他 LLM 面临的另外一项挑战是更新知识库。搜索引擎可以借助工具和软件不断索引新页面以及修改过的页面。更新搜索引擎数据库也是一项非常高效的操作。

 

但对于大型语言模型,添加新知识需要重新训练模型。也许不是每次更新都需要重新训练,但与在搜索引擎数据库中添加和修改记录相比,其成本要高得多。如果你想了解最新的新闻,就得每天做很多次。

 

ChatGPT 基于 GPT 3.5 构建,它可能至少有 1750 亿个参数。由于任何一个单独的硬件都无法运行这个模型,所以必须将其分解并分布在几个处理器上,比如 A100 GPU。配置这些处理器并行训练和运行模型不管在技术上还是财务上都是不小的挑战。

 

LLM 搜索引擎的运营商还需要有机制和工具,来确定哪些网络资源是可靠的知识源并应优先考虑。再一次,我们看到了搜索引擎组件的踪迹。

速度挑战


LLM 还存在推理速度的问题。像谷歌这样的公司已经创建了高度优化的数据库基础设施,可以在不到一秒钟的时间内找到数百万个答案。像 ChatGPT 这样的 LLM 则需要几秒钟来撰写回复。


搜索引擎不需要为每个查询浏览整个数据集。它们有索引、排序和搜索算法,可以非常快的定位到正确的记录。因此,尽管在线信息的数量在增长,但搜索引擎的速度并没有下降。

 

另一方面,LLM 每次收到提示时都会浏览整个神经网络的信息。诚然,神经网络的规模无法与搜索引擎数据库相比。但是,计算量仍然比查询索引大很多。鉴于深度神经网络的非线性性质,并行化推理操作的程度是有限的。随着 LLM 训练语料库的增长,模型也必须变得更大,才能在其知识库中很好地泛化。

ChatGPT 的商业模式


不过,基于 LLM 的搜索引擎最大的挑战可能是商业模式。谷歌在其搜索引擎上建立了一个广告帝国。

 

谷歌搜索并不是一个完美的商业模式。人们很少会点击那些越来越多地出现在搜索引擎结果页面上方的广告。但谷歌在在线搜索市场的份额如此之大,所以即使点击率很低,它每年也能赚上数十亿美元。

 

谷歌还可以根据从用户那里收集的数据来个性化搜索结果和广告。这使得它的业务更加高效和有利可图。别忘了谷歌还有许多其他产品,包括 YouTube、Gmail、Chrome 和 Android,可以强化它为用户创建的数字档案。它的广告网络也扩展到了网站和其他媒体。

 

基本上,谷歌控制着市场的两端:内容搜寻者和广告商。通过控制整个市场,它成功地创造了一个自我强化的循环。在这个循环中,它收集了更多的数据,改善了搜索结果,并提供了更多相关的广告。

 

作为一个潜在的搜索引擎,ChatGPT 还没有一个商业模式,而且成本很高。粗略估计,在 100 万用户的情况下,ChatGPT 每天的成本为 10 万美元,每月约为 300 万美元。


据我估计,运行 ChatGPT 的成本是每天 10 万美元或每月 300 万美元。这是一个粗略的计算。我是假设节点都总是在使用,批处理大小为 1。而实际上,它们可能在访问量大时进行批处理,而在访问量小时会有 GPU 处于空闲状态。

—— Tom Goldstein (@tomgoldsteincs)2022 年 12 月 6 日

 

现在想象一下,当人们每天运行 80 亿个搜索查询时会发生什么。现在,再加上定期训练模型的成本,以及通过强化学习和人类反馈来优化模型所需的人工劳动。

 

训练和运行像 ChatGPT 这样的大型语言模型的成本是如此之高,以至于让它发挥作用将成为大型科技公司的专利,这些公司可以在没有明确商业模式的无利可图的产品上投入大量资金。

 

盈利的一个可能途径是将 LLM 作为像 Codex GPT-3 那样的付费 API 交付。但这并不是搜索引擎的传统商业模式,我不确定它们将如何做到这一点。另一种方法是将其作为一些问答功能集成到微软 Bing 中,但这将使其与谷歌搜索相提并论,而不是提供一个可以颠覆搜索市场的不同系统。

ChatGPT 是一个搜索引擎吗?


很多人都在谈论 ChatGPT 将成为万能助手,可以回答任何问题,这在逻辑上引出了它将取代谷歌搜索的想法。

 

但是,尽管拥有一个可以回答问题的人工智能系统非常有用(假设 OpenAI 解决了它的问题),但这并不是在线搜索的全部。谷歌搜索有缺陷,它会显示很多没用的广告,也会返回很多没用的结果。但这是一个价值不可估量的工具。

 

大多数时候,当我使用谷歌搜索时,我甚至不知道正确的问题是什么。我只是把一堆关键字混在一起,看看结果,做一些研究,然后缩小或修改搜索。在我看来,这种应用还不是一个非常有效的问答模型所能取代的。

 

表面看来,ChatGPT 或其他类似的 LLM 将成为在线搜索引擎的补充。最终,它们很可能会强化现有搜索巨头的地位,因为这些巨头拥有训练和运营它们的资金、基础设施和数据。

 

原文链接:https://bdtechtalks.com/2023/01/02/chatgpt-google-search/

2023-02-16 11:133007

评论

发布
暂无评论
发现更多内容

vue组件通信方式有哪些?

bb_xiaxia1998

Vue

阿里内部整理的Spring boot保姆级笔记,简直太牛了

小二,上酒上酒

spring springboot

SAP | 在abap开发过程中常用的Tcode

暮春零贰

SAP abap 10月月更

太牛了,这份Spring Cloud Alibaba学习文档清晰全面,一应俱全

小二,上酒上酒

spring Spring Cloud

惊为天人,百度推出的Redis笔记真的太香了

小二,上酒上酒

redis 面试

来了来了,阿里p9整理的Netty速成笔记,应有尽有

小二,上酒上酒

Netty

短期内跳槽的Java程序员必看的八项知识点+两大项目实战

Geek_0c76c3

Java 数据库 开源 程序员 开发

vue组件通信6种方式总结(常问知识点)

bb_xiaxia1998

Vue

ConcurrentDictionary<T,V> 的这两个操作不是原子性的

有态度的马甲

数据中台建设5大关键步骤

阿泽🧸

数据中台 10月月更

全网疯传,SpringBoot笔记(全彩版)顶翻天

程序知音

Java spring 源码 springboot 后端技术

见大牛、聊感悟、拿好礼...开发者一起来微软Ignite赴约!

InfoQ写作社区官方

热门活动

金三银四跳槽季,美团、字节、阿里、腾讯Java面经,终入字节

Geek_0c76c3

Java 数据库 开源 程序员 开发

这份神仙级Spring Security源码手册,真的很强悍

小二,上酒上酒

spring spring security springboot

在数字化浪潮中,为企业建造一艘“方舟”

元年技术洞察

微服务 云原生 企业数字化 PaaS 平台

TDengine | taosdump的使用方法和注意事项

TDengine

数据库 tdengine 开源 时序数据库 taosdump

进击的PyTorch,和它背后的开源领袖

OneFlow

人工智能 机器学习 深度学习 开源

腾讯资深架构师整理出来的Java高级开发需要的分布式技术,简直绝了

小二,上酒上酒

Java 编程 JAVA开发

牛啊牛啊,这篇Spring Cloud Alibaba笔记一应俱全,几乎涵盖了所有操作

小二,上酒上酒

spring spring cloud alibaba

【一Go到底】第十二天---switch

指剑

Go Goalng 10月月更

【高并发】ScheduledThreadPoolExecutor与Timer的区别和简单示例

冰河

并发编程 多线程 高并发 协程 异步编程

Java后端没这些东西都不敢跳!对标阿里P7技术路线你值得拥有

Geek_0c76c3

Java 数据库 程序员 架构 开发

大型企业选择低代码的主要原因是什么?

优秀

低代码 低代码平台

耗时182天肝出来1015页分布式全栈手册太香了

程序知音

Java 程序员 架构 分布式 后端技术

P9力鉴!Alibaba9月最新出品776页JDK源码+并发核心原理解析小册

程序知音

Java 架构 jdk 并发编程 后端技术

Koordinator v0.7: 为任务调度领域注入新活力

阿里巴巴云原生

阿里云 云原生 Koordinator

双活数据中心建设要点

穿过生命散发芬芳

10月月更 双数据中心

还不懂Spring?阿里架构师整理的Spring宝典助你一臂之力

小二,上酒上酒

spring spring cloud ali spring宝典

精彩演讲推荐|智能化变更防控方法、架构与组织实践

TRaaS

全网独家首发Java面试题,包含Spring全家桶+高并发+Netty+Redis+Dubbo等面试专题

小二,上酒上酒

Java Linux Netty 高并发 Spring全家桶

阿里出品的这份Java性能调优实战手册,直接涨薪25K,真的香啊

小二,上酒上酒

Java 阿里 阿里面试

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?_AI&大模型_Ben Dickson_InfoQ精选文章