最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?

  • 2023-02-16
    北京
  • 本文字数:2743 字

    阅读完需:约 9 分钟

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?

自从 OpenAI 发布 ChatGPT 以来,关于它的杀手级应用会是什么,人们有很多猜测。排名第一的可能要属在线搜索。据《纽约时报》报道,谷歌的管理层已经宣布进入“红色警戒”,努力保护其在线搜索的垄断地位,以抵御 ChatGPT 将带来的冲击。


这场 ChatGPT 与谷歌搜索之间的大战,究竟谁能称王?可能不同的人心中都有不同的答案。日前,TeckTalks 博客发表评论文章认为,ChatGPT 确实是一项很棒的技术,但从现阶段来看,取代谷歌搜索还存在一定的难度。


本文最初发布于 TeckTalks 博客。


ChatGPT 是一项很棒的技术,它很有可能会重新定义我们创建以及与数字信息交互的方式。它可以有许多有趣的应用,包括在线搜索。

 

但说它将取代谷歌可能有点牵强——至少从目前来看是这样。目前,大型语言模型(LLM)在挑战搜索引擎之前还有许多问题需要解决。即使技术成熟,谷歌搜索也可能是从 LLM 中获益最多的。

LLM 与真实性


ChatGPT 非常擅长回答问题。它让你觉得自己就像是在和一个花了几百年时间汲取知识的人说话。它的输出很流畅,语法也正确,甚至可以模仿不同的演讲风格。


然而,有个问题是 ChatGPT 的答案有时候不对。事实上,它经常产生幻觉,陈述的事实完全错误。在读写能力的表象之下,ChatGPT 是一个非常先进的自动补全引擎。它会根据你的提示(和聊天记录)尝试预测接下来会发生什么。而且,即使它的答案大部分看起来是合理的,它也没有把事情做好。

 

解决 ChatGPT 输出的真实性问题将是一项重大的挑战。遗憾的是,目前还没有办法在 ChatGPT 的输出中区分幻觉和真相,除非你用其他事实来源验证它的答案(或许可以使用谷歌?)。但如果重点是使用大型语言模型作为搜索引擎的替代品,那可能会弄巧成拙。

 

现在,谷歌或其他搜索引擎所提供的所有内容都不一定是真实的。但至少,它们为你提供了可以进行验证的资源链接。而 ChatGPT 提供纯文本,不会引用实际的网站(注:在融合 ChatGPT 的最新版Bing中,会引用相关网址)。

 

一个可能的解决方案是添加一种机制,将 LLM 输出的不同部分链接到实际的网页(一些公司正在试验这种方法)。但这是一项复杂的任务,可能无法用纯基于深度学习的方法来解决。这就需要访问另一个信息源,比如搜索引擎索引数据库(这是经典搜索引擎不太可能很快失去其重要地位的原因之一)。

更新模型



ChatGPT 及其他 LLM 面临的另外一项挑战是更新知识库。搜索引擎可以借助工具和软件不断索引新页面以及修改过的页面。更新搜索引擎数据库也是一项非常高效的操作。

 

但对于大型语言模型,添加新知识需要重新训练模型。也许不是每次更新都需要重新训练,但与在搜索引擎数据库中添加和修改记录相比,其成本要高得多。如果你想了解最新的新闻,就得每天做很多次。

 

ChatGPT 基于 GPT 3.5 构建,它可能至少有 1750 亿个参数。由于任何一个单独的硬件都无法运行这个模型,所以必须将其分解并分布在几个处理器上,比如 A100 GPU。配置这些处理器并行训练和运行模型不管在技术上还是财务上都是不小的挑战。

 

LLM 搜索引擎的运营商还需要有机制和工具,来确定哪些网络资源是可靠的知识源并应优先考虑。再一次,我们看到了搜索引擎组件的踪迹。

速度挑战


LLM 还存在推理速度的问题。像谷歌这样的公司已经创建了高度优化的数据库基础设施,可以在不到一秒钟的时间内找到数百万个答案。像 ChatGPT 这样的 LLM 则需要几秒钟来撰写回复。


搜索引擎不需要为每个查询浏览整个数据集。它们有索引、排序和搜索算法,可以非常快的定位到正确的记录。因此,尽管在线信息的数量在增长,但搜索引擎的速度并没有下降。

 

另一方面,LLM 每次收到提示时都会浏览整个神经网络的信息。诚然,神经网络的规模无法与搜索引擎数据库相比。但是,计算量仍然比查询索引大很多。鉴于深度神经网络的非线性性质,并行化推理操作的程度是有限的。随着 LLM 训练语料库的增长,模型也必须变得更大,才能在其知识库中很好地泛化。

ChatGPT 的商业模式


不过,基于 LLM 的搜索引擎最大的挑战可能是商业模式。谷歌在其搜索引擎上建立了一个广告帝国。

 

谷歌搜索并不是一个完美的商业模式。人们很少会点击那些越来越多地出现在搜索引擎结果页面上方的广告。但谷歌在在线搜索市场的份额如此之大,所以即使点击率很低,它每年也能赚上数十亿美元。

 

谷歌还可以根据从用户那里收集的数据来个性化搜索结果和广告。这使得它的业务更加高效和有利可图。别忘了谷歌还有许多其他产品,包括 YouTube、Gmail、Chrome 和 Android,可以强化它为用户创建的数字档案。它的广告网络也扩展到了网站和其他媒体。

 

基本上,谷歌控制着市场的两端:内容搜寻者和广告商。通过控制整个市场,它成功地创造了一个自我强化的循环。在这个循环中,它收集了更多的数据,改善了搜索结果,并提供了更多相关的广告。

 

作为一个潜在的搜索引擎,ChatGPT 还没有一个商业模式,而且成本很高。粗略估计,在 100 万用户的情况下,ChatGPT 每天的成本为 10 万美元,每月约为 300 万美元。


据我估计,运行 ChatGPT 的成本是每天 10 万美元或每月 300 万美元。这是一个粗略的计算。我是假设节点都总是在使用,批处理大小为 1。而实际上,它们可能在访问量大时进行批处理,而在访问量小时会有 GPU 处于空闲状态。

—— Tom Goldstein (@tomgoldsteincs)2022 年 12 月 6 日

 

现在想象一下,当人们每天运行 80 亿个搜索查询时会发生什么。现在,再加上定期训练模型的成本,以及通过强化学习和人类反馈来优化模型所需的人工劳动。

 

训练和运行像 ChatGPT 这样的大型语言模型的成本是如此之高,以至于让它发挥作用将成为大型科技公司的专利,这些公司可以在没有明确商业模式的无利可图的产品上投入大量资金。

 

盈利的一个可能途径是将 LLM 作为像 Codex GPT-3 那样的付费 API 交付。但这并不是搜索引擎的传统商业模式,我不确定它们将如何做到这一点。另一种方法是将其作为一些问答功能集成到微软 Bing 中,但这将使其与谷歌搜索相提并论,而不是提供一个可以颠覆搜索市场的不同系统。

ChatGPT 是一个搜索引擎吗?


很多人都在谈论 ChatGPT 将成为万能助手,可以回答任何问题,这在逻辑上引出了它将取代谷歌搜索的想法。

 

但是,尽管拥有一个可以回答问题的人工智能系统非常有用(假设 OpenAI 解决了它的问题),但这并不是在线搜索的全部。谷歌搜索有缺陷,它会显示很多没用的广告,也会返回很多没用的结果。但这是一个价值不可估量的工具。

 

大多数时候,当我使用谷歌搜索时,我甚至不知道正确的问题是什么。我只是把一堆关键字混在一起,看看结果,做一些研究,然后缩小或修改搜索。在我看来,这种应用还不是一个非常有效的问答模型所能取代的。

 

表面看来,ChatGPT 或其他类似的 LLM 将成为在线搜索引擎的补充。最终,它们很可能会强化现有搜索巨头的地位,因为这些巨头拥有训练和运营它们的资金、基础设施和数据。

 

原文链接:https://bdtechtalks.com/2023/01/02/chatgpt-google-search/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-02-16 11:132679

评论

发布
暂无评论
发现更多内容

Python进阶(一)初识Python数据元素:列表&元组

No Silver Bullet

Python 列表 元组 10月月更 数据元素

Docker下,两分钟极速体验Nacos配置中心

程序员欣宸

Docker nacos 10月月更

深入理解JS作用域链与执行上下文

loveX001

JavaScript

ESP32-C3 学习测试 蓝牙 篇(七、GATT 数据通信 — 发送自定义数据)

矜辰所致

蓝牙 ESP32-C3 10月月更

作为Android Coder,你了解注解吗?

子不语Any

后端 java; 10月月更

开发者有话说|以码为梦,心向远方,路在脚下

乌龟哥哥

个人成长 10月月更

什么是光网络,几张图就可以很好的解释!

wljslmz

光纤 10月月更 光网络 通信网络

架构实战营模块 2 作业

陌生流云

架构实战营

面试官:说说JS作用域和作用域链,我是这样回答的

loveX001

JavaScript

陈宗绵|关于研发效能的理想与现实

laofo

DevOps cicd 研发效能 持续集成 持续交付

Python应用之拉力赛求最短时间

二哈侠

10月月更 Python语法应用 函数构建

从这两道题重新理解,JS的this、作用域、闭包、对象

loveX001

JavaScript

React组件之间的通信方式总结(上)

beifeng1996

React

架构师的十八般武艺:领域建模

agnostic

领域建模

第九期 - 模块二

wuli洋

聊聊前端面试中的js同步与异步问题

loveX001

JavaScript

React-hooks面试考察知识点汇总

beifeng1996

React

Python进阶(二)初识Python数据元素:字典&时间

No Silver Bullet

Python 时间 字典 10月月更 数据元素

JVM——垃圾回收算法

琦彦

Java JVM 垃圾回收 10月月更

一文了解 CPython 中的垃圾收集器

宇宙之一粟

Python 垃圾回收算法 垃圾收集器 10月月更

【愚公系列】2022年10月 Go教学课程 019-循环结构之for

愚公搬代码

10月月更

爬虫练习题(一)

张立梵

Python. 10月月更 爬虫案例

C++学习---cstdio的源码学习分析06-关闭文件函数fclose

桑榆

c++ 源码分析 10月月更

改造微服务的时机

穿过生命散发芬芳

微服务 10月月更

一天梳理完React所有面试考察知识点

beifeng1996

React

React组件之间的通信方式总结(下)

beifeng1996

React

Python应用之寻求两个数对之间的最大乘积

二哈侠

Python语法 10月月更 split函数

《Rust for Rustaceans》读书笔记2

袁世超

rust

2022-10-05:在一个 n x n 的整数矩阵 grid 中, 每一个方格的值 grid[i][j] 表示位置 (i, j) 的平台高度。 当开始下雨时,在时间为 t 时,水池中的水位为 t 。

福大大架构师每日一题

算法 rust 福大大

Python应用之丑数的判断

二哈侠

Python 10月月更 丑数

【C语言难点突破】指针和数组名的爱恨情仇

Geek_65222d

10月月更

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?_AI&大模型_Ben Dickson_InfoQ精选文章