50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?

  • 2023-02-16
    北京
  • 本文字数:2743 字

    阅读完需:约 9 分钟

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?

自从 OpenAI 发布 ChatGPT 以来,关于它的杀手级应用会是什么,人们有很多猜测。排名第一的可能要属在线搜索。据《纽约时报》报道,谷歌的管理层已经宣布进入“红色警戒”,努力保护其在线搜索的垄断地位,以抵御 ChatGPT 将带来的冲击。


这场 ChatGPT 与谷歌搜索之间的大战,究竟谁能称王?可能不同的人心中都有不同的答案。日前,TeckTalks 博客发表评论文章认为,ChatGPT 确实是一项很棒的技术,但从现阶段来看,取代谷歌搜索还存在一定的难度。


本文最初发布于 TeckTalks 博客。


ChatGPT 是一项很棒的技术,它很有可能会重新定义我们创建以及与数字信息交互的方式。它可以有许多有趣的应用,包括在线搜索。

 

但说它将取代谷歌可能有点牵强——至少从目前来看是这样。目前,大型语言模型(LLM)在挑战搜索引擎之前还有许多问题需要解决。即使技术成熟,谷歌搜索也可能是从 LLM 中获益最多的。

LLM 与真实性


ChatGPT 非常擅长回答问题。它让你觉得自己就像是在和一个花了几百年时间汲取知识的人说话。它的输出很流畅,语法也正确,甚至可以模仿不同的演讲风格。


然而,有个问题是 ChatGPT 的答案有时候不对。事实上,它经常产生幻觉,陈述的事实完全错误。在读写能力的表象之下,ChatGPT 是一个非常先进的自动补全引擎。它会根据你的提示(和聊天记录)尝试预测接下来会发生什么。而且,即使它的答案大部分看起来是合理的,它也没有把事情做好。

 

解决 ChatGPT 输出的真实性问题将是一项重大的挑战。遗憾的是,目前还没有办法在 ChatGPT 的输出中区分幻觉和真相,除非你用其他事实来源验证它的答案(或许可以使用谷歌?)。但如果重点是使用大型语言模型作为搜索引擎的替代品,那可能会弄巧成拙。

 

现在,谷歌或其他搜索引擎所提供的所有内容都不一定是真实的。但至少,它们为你提供了可以进行验证的资源链接。而 ChatGPT 提供纯文本,不会引用实际的网站(注:在融合 ChatGPT 的最新版Bing中,会引用相关网址)。

 

一个可能的解决方案是添加一种机制,将 LLM 输出的不同部分链接到实际的网页(一些公司正在试验这种方法)。但这是一项复杂的任务,可能无法用纯基于深度学习的方法来解决。这就需要访问另一个信息源,比如搜索引擎索引数据库(这是经典搜索引擎不太可能很快失去其重要地位的原因之一)。

更新模型



ChatGPT 及其他 LLM 面临的另外一项挑战是更新知识库。搜索引擎可以借助工具和软件不断索引新页面以及修改过的页面。更新搜索引擎数据库也是一项非常高效的操作。

 

但对于大型语言模型,添加新知识需要重新训练模型。也许不是每次更新都需要重新训练,但与在搜索引擎数据库中添加和修改记录相比,其成本要高得多。如果你想了解最新的新闻,就得每天做很多次。

 

ChatGPT 基于 GPT 3.5 构建,它可能至少有 1750 亿个参数。由于任何一个单独的硬件都无法运行这个模型,所以必须将其分解并分布在几个处理器上,比如 A100 GPU。配置这些处理器并行训练和运行模型不管在技术上还是财务上都是不小的挑战。

 

LLM 搜索引擎的运营商还需要有机制和工具,来确定哪些网络资源是可靠的知识源并应优先考虑。再一次,我们看到了搜索引擎组件的踪迹。

速度挑战


LLM 还存在推理速度的问题。像谷歌这样的公司已经创建了高度优化的数据库基础设施,可以在不到一秒钟的时间内找到数百万个答案。像 ChatGPT 这样的 LLM 则需要几秒钟来撰写回复。


搜索引擎不需要为每个查询浏览整个数据集。它们有索引、排序和搜索算法,可以非常快的定位到正确的记录。因此,尽管在线信息的数量在增长,但搜索引擎的速度并没有下降。

 

另一方面,LLM 每次收到提示时都会浏览整个神经网络的信息。诚然,神经网络的规模无法与搜索引擎数据库相比。但是,计算量仍然比查询索引大很多。鉴于深度神经网络的非线性性质,并行化推理操作的程度是有限的。随着 LLM 训练语料库的增长,模型也必须变得更大,才能在其知识库中很好地泛化。

ChatGPT 的商业模式


不过,基于 LLM 的搜索引擎最大的挑战可能是商业模式。谷歌在其搜索引擎上建立了一个广告帝国。

 

谷歌搜索并不是一个完美的商业模式。人们很少会点击那些越来越多地出现在搜索引擎结果页面上方的广告。但谷歌在在线搜索市场的份额如此之大,所以即使点击率很低,它每年也能赚上数十亿美元。

 

谷歌还可以根据从用户那里收集的数据来个性化搜索结果和广告。这使得它的业务更加高效和有利可图。别忘了谷歌还有许多其他产品,包括 YouTube、Gmail、Chrome 和 Android,可以强化它为用户创建的数字档案。它的广告网络也扩展到了网站和其他媒体。

 

基本上,谷歌控制着市场的两端:内容搜寻者和广告商。通过控制整个市场,它成功地创造了一个自我强化的循环。在这个循环中,它收集了更多的数据,改善了搜索结果,并提供了更多相关的广告。

 

作为一个潜在的搜索引擎,ChatGPT 还没有一个商业模式,而且成本很高。粗略估计,在 100 万用户的情况下,ChatGPT 每天的成本为 10 万美元,每月约为 300 万美元。


据我估计,运行 ChatGPT 的成本是每天 10 万美元或每月 300 万美元。这是一个粗略的计算。我是假设节点都总是在使用,批处理大小为 1。而实际上,它们可能在访问量大时进行批处理,而在访问量小时会有 GPU 处于空闲状态。

—— Tom Goldstein (@tomgoldsteincs)2022 年 12 月 6 日

 

现在想象一下,当人们每天运行 80 亿个搜索查询时会发生什么。现在,再加上定期训练模型的成本,以及通过强化学习和人类反馈来优化模型所需的人工劳动。

 

训练和运行像 ChatGPT 这样的大型语言模型的成本是如此之高,以至于让它发挥作用将成为大型科技公司的专利,这些公司可以在没有明确商业模式的无利可图的产品上投入大量资金。

 

盈利的一个可能途径是将 LLM 作为像 Codex GPT-3 那样的付费 API 交付。但这并不是搜索引擎的传统商业模式,我不确定它们将如何做到这一点。另一种方法是将其作为一些问答功能集成到微软 Bing 中,但这将使其与谷歌搜索相提并论,而不是提供一个可以颠覆搜索市场的不同系统。

ChatGPT 是一个搜索引擎吗?


很多人都在谈论 ChatGPT 将成为万能助手,可以回答任何问题,这在逻辑上引出了它将取代谷歌搜索的想法。

 

但是,尽管拥有一个可以回答问题的人工智能系统非常有用(假设 OpenAI 解决了它的问题),但这并不是在线搜索的全部。谷歌搜索有缺陷,它会显示很多没用的广告,也会返回很多没用的结果。但这是一个价值不可估量的工具。

 

大多数时候,当我使用谷歌搜索时,我甚至不知道正确的问题是什么。我只是把一堆关键字混在一起,看看结果,做一些研究,然后缩小或修改搜索。在我看来,这种应用还不是一个非常有效的问答模型所能取代的。

 

表面看来,ChatGPT 或其他类似的 LLM 将成为在线搜索引擎的补充。最终,它们很可能会强化现有搜索巨头的地位,因为这些巨头拥有训练和运营它们的资金、基础设施和数据。

 

原文链接:https://bdtechtalks.com/2023/01/02/chatgpt-google-search/

2023-02-16 11:133219

评论

发布
暂无评论
发现更多内容

dubbo实战之三:使用Zookeeper注册中心

爱好编程进阶

Java 面试 后端开发

elasticsearch实战三部曲之三:搜索操作

爱好编程进阶

Java 面试 后端开发

Meetup回顾|星策社区FeatureStore Meetup V2

星策开源社区

机器学习 Meetup Feature Store 特征平台 MLOps

Java Shutdown Hook 场景使用和源码分析

爱好编程进阶

Java 面试 后端开发

Linux下玩转nginx系列(四)---nginx做Web服务器

anyRTC开发者

nginx Linux Web 音视频 服务器

2021最新最全Java基础高频面试题汇总(1W字详细解析)

爱好编程进阶

Java 面试 后端开发

GitHub上最火的SpringCloud微服务商城系统项目,附全套教程

爱好编程进阶

Java 面试 后端开发

GitHub榜首的阿里“绝巅版”工程师面试手册

爱好编程进阶

Java 面试 后端开发

建木持续集成平台v2.3.0发布

Jianmu

持续集成 工作流 gitops pipeline 建木CI

预售2小时,破10000册!顶级投资人的投资策略首度全面公开

博文视点Broadview

45天拿下美团Offer,狂抬阿里这本Java性能调优手册,不愧是No

爱好编程进阶

Java 面试 后端开发

Java-进阶:Java-File-&-IO—1

爱好编程进阶

Java 面试 后端开发

Java8的这些集合骚操作,你掌握了嘛?

爱好编程进阶

Java 面试 后端开发

JavaOOP面试题50题(含答案)

爱好编程进阶

Java 面试 后端开发

Spring入门基础

乌龟哥哥

4月月更

69-个经典-Spring-面试题和答案详解(下)

爱好编程进阶

Java 面试 后端开发

IDEA的Docker插件实战(Docker-compose篇)

爱好编程进阶

Java 面试 后端开发

Java中IO字符流、File类

爱好编程进阶

Java 面试 后端开发

蓝翔:百度开源深度学习平台飞桨的核心技术及应用

百度开发者中心

TASKCTL 作业异常报错如何发送短信和邮件

敏捷调度TASKCTL

开源 DevOps 分布式 方法论 敏捷开发

技术文档|基于双目感知的封闭园区自动驾驶搭建--感知适配

百度开发者中心

@Configuration注解 -【Spring底层原理

爱好编程进阶

Java 面试 后端开发

BAT大厂大佬教你:Docker部署Prometheus+Grafana监控系统

爱好编程进阶

Java 面试 后端开发

极致体验,揭秘抖音背后的音视频技术

字节跳动视频云技术团队

音视频开发 视频云

打破虚拟边界的视频交互新方式,AR隔空书写的应用理念和探索实践

阿里云CloudImagine

音视频 AR 直播 视频云

GX Works2、MX OPC 6

爱好编程进阶

Java 面试 后端开发

30 网站架构师职场攻略

爱好编程进阶

Java 面试 后端开发

BS-GX-018 基于SSM实现在校学生考试系统

爱好编程进阶

Java 面试 后端开发

GitHub 自动合并 pr 的机器人——auto-merge-bot

NebulaGraph

图数据库 知识图谱

2021最新Spring Boot 面试题

爱好编程进阶

Java 面试 后端开发

Binder源码阅读指南之java层

爱好编程进阶

Java 面试 后端开发

ChatGPT“大战”谷歌搜索:新王加冕还是旧王延续?_AI&大模型_Ben Dickson_InfoQ精选文章