【FCon上海】与行业领袖共话AI大模型、数字化风控等前沿技术。 了解详情
写点什么

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?

  • 2023-02-16
    北京
  • 本文字数:2743 字

    阅读完需:约 9 分钟

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

自从 OpenAI 发布 ChatGPT 以来,关于它的杀手级应用会是什么,人们有很多猜测。排名第一的可能要属在线搜索。据《纽约时报》报道,谷歌的管理层已经宣布进入“红色警戒”,努力保护其在线搜索的垄断地位,以抵御 ChatGPT 将带来的冲击。


这场 ChatGPT 与谷歌搜索之间的大战,究竟谁能称王?可能不同的人心中都有不同的答案。日前,TeckTalks 博客发表评论文章认为,ChatGPT 确实是一项很棒的技术,但从现阶段来看,取代谷歌搜索还存在一定的难度。


本文最初发布于 TeckTalks 博客。


ChatGPT 是一项很棒的技术,它很有可能会重新定义我们创建以及与数字信息交互的方式。它可以有许多有趣的应用,包括在线搜索。

 

但说它将取代谷歌可能有点牵强——至少从目前来看是这样。目前,大型语言模型(LLM)在挑战搜索引擎之前还有许多问题需要解决。即使技术成熟,谷歌搜索也可能是从 LLM 中获益最多的。

LLM 与真实性


ChatGPT 非常擅长回答问题。它让你觉得自己就像是在和一个花了几百年时间汲取知识的人说话。它的输出很流畅,语法也正确,甚至可以模仿不同的演讲风格。


然而,有个问题是 ChatGPT 的答案有时候不对。事实上,它经常产生幻觉,陈述的事实完全错误。在读写能力的表象之下,ChatGPT 是一个非常先进的自动补全引擎。它会根据你的提示(和聊天记录)尝试预测接下来会发生什么。而且,即使它的答案大部分看起来是合理的,它也没有把事情做好。

 

解决 ChatGPT 输出的真实性问题将是一项重大的挑战。遗憾的是,目前还没有办法在 ChatGPT 的输出中区分幻觉和真相,除非你用其他事实来源验证它的答案(或许可以使用谷歌?)。但如果重点是使用大型语言模型作为搜索引擎的替代品,那可能会弄巧成拙。

 

现在,谷歌或其他搜索引擎所提供的所有内容都不一定是真实的。但至少,它们为你提供了可以进行验证的资源链接。而 ChatGPT 提供纯文本,不会引用实际的网站(注:在融合 ChatGPT 的最新版Bing中,会引用相关网址)。

 

一个可能的解决方案是添加一种机制,将 LLM 输出的不同部分链接到实际的网页(一些公司正在试验这种方法)。但这是一项复杂的任务,可能无法用纯基于深度学习的方法来解决。这就需要访问另一个信息源,比如搜索引擎索引数据库(这是经典搜索引擎不太可能很快失去其重要地位的原因之一)。

更新模型



ChatGPT 及其他 LLM 面临的另外一项挑战是更新知识库。搜索引擎可以借助工具和软件不断索引新页面以及修改过的页面。更新搜索引擎数据库也是一项非常高效的操作。

 

但对于大型语言模型,添加新知识需要重新训练模型。也许不是每次更新都需要重新训练,但与在搜索引擎数据库中添加和修改记录相比,其成本要高得多。如果你想了解最新的新闻,就得每天做很多次。

 

ChatGPT 基于 GPT 3.5 构建,它可能至少有 1750 亿个参数。由于任何一个单独的硬件都无法运行这个模型,所以必须将其分解并分布在几个处理器上,比如 A100 GPU。配置这些处理器并行训练和运行模型不管在技术上还是财务上都是不小的挑战。

 

LLM 搜索引擎的运营商还需要有机制和工具,来确定哪些网络资源是可靠的知识源并应优先考虑。再一次,我们看到了搜索引擎组件的踪迹。

速度挑战


LLM 还存在推理速度的问题。像谷歌这样的公司已经创建了高度优化的数据库基础设施,可以在不到一秒钟的时间内找到数百万个答案。像 ChatGPT 这样的 LLM 则需要几秒钟来撰写回复。


搜索引擎不需要为每个查询浏览整个数据集。它们有索引、排序和搜索算法,可以非常快的定位到正确的记录。因此,尽管在线信息的数量在增长,但搜索引擎的速度并没有下降。

 

另一方面,LLM 每次收到提示时都会浏览整个神经网络的信息。诚然,神经网络的规模无法与搜索引擎数据库相比。但是,计算量仍然比查询索引大很多。鉴于深度神经网络的非线性性质,并行化推理操作的程度是有限的。随着 LLM 训练语料库的增长,模型也必须变得更大,才能在其知识库中很好地泛化。

ChatGPT 的商业模式


不过,基于 LLM 的搜索引擎最大的挑战可能是商业模式。谷歌在其搜索引擎上建立了一个广告帝国。

 

谷歌搜索并不是一个完美的商业模式。人们很少会点击那些越来越多地出现在搜索引擎结果页面上方的广告。但谷歌在在线搜索市场的份额如此之大,所以即使点击率很低,它每年也能赚上数十亿美元。

 

谷歌还可以根据从用户那里收集的数据来个性化搜索结果和广告。这使得它的业务更加高效和有利可图。别忘了谷歌还有许多其他产品,包括 YouTube、Gmail、Chrome 和 Android,可以强化它为用户创建的数字档案。它的广告网络也扩展到了网站和其他媒体。

 

基本上,谷歌控制着市场的两端:内容搜寻者和广告商。通过控制整个市场,它成功地创造了一个自我强化的循环。在这个循环中,它收集了更多的数据,改善了搜索结果,并提供了更多相关的广告。

 

作为一个潜在的搜索引擎,ChatGPT 还没有一个商业模式,而且成本很高。粗略估计,在 100 万用户的情况下,ChatGPT 每天的成本为 10 万美元,每月约为 300 万美元。


据我估计,运行 ChatGPT 的成本是每天 10 万美元或每月 300 万美元。这是一个粗略的计算。我是假设节点都总是在使用,批处理大小为 1。而实际上,它们可能在访问量大时进行批处理,而在访问量小时会有 GPU 处于空闲状态。

—— Tom Goldstein (@tomgoldsteincs)2022 年 12 月 6 日

 

现在想象一下,当人们每天运行 80 亿个搜索查询时会发生什么。现在,再加上定期训练模型的成本,以及通过强化学习和人类反馈来优化模型所需的人工劳动。

 

训练和运行像 ChatGPT 这样的大型语言模型的成本是如此之高,以至于让它发挥作用将成为大型科技公司的专利,这些公司可以在没有明确商业模式的无利可图的产品上投入大量资金。

 

盈利的一个可能途径是将 LLM 作为像 Codex GPT-3 那样的付费 API 交付。但这并不是搜索引擎的传统商业模式,我不确定它们将如何做到这一点。另一种方法是将其作为一些问答功能集成到微软 Bing 中,但这将使其与谷歌搜索相提并论,而不是提供一个可以颠覆搜索市场的不同系统。

ChatGPT 是一个搜索引擎吗?


很多人都在谈论 ChatGPT 将成为万能助手,可以回答任何问题,这在逻辑上引出了它将取代谷歌搜索的想法。

 

但是,尽管拥有一个可以回答问题的人工智能系统非常有用(假设 OpenAI 解决了它的问题),但这并不是在线搜索的全部。谷歌搜索有缺陷,它会显示很多没用的广告,也会返回很多没用的结果。但这是一个价值不可估量的工具。

 

大多数时候,当我使用谷歌搜索时,我甚至不知道正确的问题是什么。我只是把一堆关键字混在一起,看看结果,做一些研究,然后缩小或修改搜索。在我看来,这种应用还不是一个非常有效的问答模型所能取代的。

 

表面看来,ChatGPT 或其他类似的 LLM 将成为在线搜索引擎的补充。最终,它们很可能会强化现有搜索巨头的地位,因为这些巨头拥有训练和运营它们的资金、基础设施和数据。

 

原文链接:https://bdtechtalks.com/2023/01/02/chatgpt-google-search/

公众号推荐:

AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

2023-02-16 11:132719

评论

发布
暂无评论
发现更多内容

一道好题!我觉得面试如果考察「双指针」的话,这题是刚刚好 ...

宫水三叶的刷题日记

面试 LeetCode 数据结构与算法

基于grpc手撸一个RPC框架

cloudcoder

风口上的量子计算机:核聚变一样的赌局,钻石一样的骗局

脑极体

【死磕JVM】JVM快速入门之前戏篇

牧小农

跨平台 虚拟机 Java虚拟机 JVM虚拟机原理 hotspot

Selenium 利用 JS/JQ 操作元素、鼠标键盘事件、Cookie 操作

梦想橡皮擦

Python 28天写作 2月春节不断更 selenium

javascript中的内置对象和数据结构

程序那些事

JavaScript 数据结构 ES6 程序那些事

科大讯飞发布全新一代智能办公本X2

XYZ

bat文件调用cmd命令批量提取文件夹中的文件名(批量修改文件扩展名)

明金同学

字节跳动面试官这样问消息队列:高可用、不重复消费、可靠传输、顺序消费、消息堆积,我整理了下

冰河

面试 分布式 中间件 消息队列 一起进大厂

【2021海量真实校招】软件测试面试真题,(大数据整理)刷完应对各家企业面试完全没有问题!

程序员阿沐

面试 软件测试 自动化测试 黑盒测试 白盒测试

牛掰!面试不再慌,苦刷这份2020最全的“基础-中级-高级”面试题库,已涨17k

Java架构之路

Java 程序员 架构 面试 编程语言

最新大厂Java面试题库,测试一下你能坚持到哪一面 “美团+字节+腾讯”三面技术问题

Java架构之路

Java 程序员 架构 面试 编程语言

构建“金融+司法”新局面:兴业消费金融区块链电子存证系统正式上线

CECBC

金融

区块链电子合同存证,电子合同区块链服务平台

13530558032

Elasticsearch 查询结果排序

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

Kalm——基于Kubernetes的部署工具

David

开源 Kubernetes DevOps 运维 运维平台

小程序开发-云开发技术总结

我是哪吒

小程序 程序员 大前端 28天写作 2月春节不断更

关于央行数字货币若干问题的思考 | 比较

CECBC

数字货币

阿里中间件团队技术官手撸笔记,全新演绎“Kafka部署实战”,已开源

Java架构之路

Java 程序员 架构 面试 编程语言

性能优化知多少

圣杰

sql 性能优化 dotnet

热点浅谈:低代码开发平台发展前景与市场规模!

优秀

低代码 低代码开发 低代码开发平台

诊所数字化:患者数字档案的价值机遇和风险

boshi

数字化医疗 七日更 28天写作

一口气发布十大建网利器,华为打算煲出怎样的5G味道?

脑极体

简单的网站搭建

很甜回忆

网站

为了让你在“口袋奇兵”聊遍全球,Serverless 做了什么?

阿里巴巴云原生

云计算 Serverless 云原生 监控 调度

runtime笔记

Conan

ios

解读云原生技术

xcbeyond

Kubernetes 云原生 服务网格 28天写作

Android NativeCrash 捕获与解析

vivo互联网技术

c++ android NativeCrash

深度丨从货币历史看比特币的诞生

CECBC

比特币

Linux入门篇 —— Shell详解

若尘

Linux 命令行 linux操作

【计算机内功修炼】十:线程间到底共享了哪些进程资源

码农的荒岛求生

c c++ 线程 操作系统 进程

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?_AI&大模型_Ben Dickson_InfoQ精选文章