阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

比 Bing 更早将 LLM 集成到搜索引擎中,这家由谷歌前高管创立的公司为什么还是失败了?

  • 2023-07-28
    北京
  • 本文字数:4095 字

    阅读完需:约 13 分钟

比Bing更早将LLM集成到搜索引擎中,这家由谷歌前高管创立的公司为什么还是失败了?

Neeva 更快、更简单且无广告。但做出比谷歌更好的东西,却并不足以击败谷歌。

 

在出走谷歌,创立 Neeva 以前,Sridhar Ramaswamy 曾在谷歌工作过 15 年,担任广告业务高级副总裁一职;Vivek Raghunathan 曾担任 YouTube 货币化副总裁。Ramaswamy 认为,过度依赖广告会损害搜索结果的质量,于是在 2019 年,Ramaswamy 和 Raghunathan 联合创立了搜索引擎 Neeva。Neeva 的使命是让搜索服务回归用户,旨在通过提供优先考虑用户隐私并提供无广告体验的替代方案来颠覆搜索引擎市场。

 

Neeva 从头开始构建了一个搜索堆栈,并组建了一个 50 人的小团队。Neeva 曾在短期内迅速吸引了大量用户,在推出后四个月内月活跃用户增长到 50 万。到 2022 年初,Neeva 已经将大语言模型集成到其搜索堆栈中,成为第一个为大多数查询提供引用的实时人工智能答案的搜索引擎。有人曾将 Neeva 看作是谷歌最强有力的竞争者。Neeva 在某些方面的确远远领先于谷歌,比如将 10 个蓝色链接替换为更直观的页面,并强调人工创建的信息。

 

但构建搜索引擎实际上是最容易的部分。Ramaswamy 和 Raghunathan 在宣布 Neeva 关闭的博客文章中写道:“在整个旅程中,我们发现构建搜索引擎是一回事,说服普通用转向更好的选择则完全是另一回事”。Ramaswamy 和 Raghunathan 称,他们在吸引新用户方面面临着重大挑战,再加上所有公司目前面临的困难经济环境,意味着继续目前的路线已不再可行。 他们写道:“在消费者搜索领域创建可持续业务已不再可行。” “因此,在接下来的几周内,我们将关闭 neeva.com 和我们的消费者搜索产品,并转移到新的重点领域。”

 

仅仅四年,Neeva 就停止运营了。2023 年 5 月,云数据库公司 Snowflake 以约 1.5 亿美元收购了 Neeva,未来将帮助服务企业客户利用 AI 去快速搜索和分析数据点、数据资产,获得数据洞察的能力。

Neeva:构建自有搜索索引,首批集成 AI 功能

 

Neeva 的计划来自一个简单的想法:谷歌的商业模式已经在拖累搜索引擎的进步。Ramaswamy 认为,从长远来看,这种以广告为基础的模式必然导致搜索结果劣化。要想打造更好的搜索引擎,首先需要改变激励措施。这种改变意味着不再以展示广告为诉求,而是始终把用户体验放在第一位。这种新模式不需要让用户输入查询,也不需要帮广告商收集用户数据。其目标就是帮助人们找到自己想要的页面,并避开途中的一切障碍。

 

David Pierce 在一篇分析文章中指出:“从零开始构建搜索引擎既困难又昂贵,因此很多人对此根本不感兴趣。他们选择以 10 到 25 美元的价格购买 Bing 提供的 1000 条数据搜索许可,再以此为基础添加自己的功能和界面。”而 Neeva 对于彻底改革搜索技术有很多自己的想法,因此最终决定要控制底层数据。

 

Raghunathan 表示,“我们想要加快搜索速度、充实预览内容、提供首选网站、开放个人搜索选项,但这一切都遇到了困难。”Bing API 提供的链接并不支持这些额外功能,所以 Neeva 的思路就成了空想。如果真想打造一套更好的搜索引擎,那 Neeva 就必须得亲自动手、从零起步。

 

经过两年的构建、训练、完善、再训练和再完善,Neeva 搜索引擎终于建立起完全自主的技术基础。构建自有搜索索引的一大优势就是,能给大语言模型收集到一组非常实用的训练数据。Neeva 还是首批推出 AI 搜索助手(名为 NeevaAI)的公司之一,它能总结搜索结果,有时甚至直接在页面顶端回答用户的问题。

 

Neeva 团队还建立起了带有更大图像和比较信息的购物页面,这里优先参考了 Reddit 和 Quora 等平台的结果。体育搜索也变成了漂亮的全屏记分牌。之所以这样做,就是希望大家在搜索“布拉德·皮特 IMDb”或“WhatsApp Web 版”时,Neeva 的自动补全功能会直接将用户带入网站,压根不需要中间的结果页面。Neeva 干净、简单,早期用户纷纷表示这种不骗人看广告的搜索引擎才是好引擎。

 

但打造一款好产品和让用户喜欢上它完全是两码事。毕竟 Neeva 的使用体验太不同了,用户得放弃自己上网时最简单、也最根深蒂固的习惯,才能适应这种全新设计。

 

科技行业一直有个原则,即人们不会愿意改变自己的使用习惯。Ramaswamy 在采访中坦言,“我们面临的最大障碍之一,确实就是扭转用户的固有习惯。人们忘记了谷歌的成功不仅仅是开发出了更好的产品。为了实现目标,我们必须做出一系列精准的分发决策。”

 

据报道,谷歌每年向苹果支付高达 150 亿美元,为的就是能在各类苹果设备的 Safari 浏览器中成为默认搜索引擎。谷歌同时也向 Mozilla 支付费用,借此成为 Firefox 浏览器中的首选搜索引擎。而这笔费用高达每年 4.5 亿美元。谷歌还跟其他设备制造商和浏览器开发商有合作,甚至跟电信运营商也有类似的交易。据《华尔街日报》报道,三星曾在 2023 年短暂考虑结束与谷歌的交易,但由于各种原因而最终放弃,其中包括“可能对与谷歌间的广泛业务关系产生影响”。

 

谷歌的真正优势在于旗下的其它产品。Android 是目前全球最受欢迎的移动操作系统,市场份额约占 78%。Chrome 则是最受欢迎的网络浏览器,市场占比约 62%。在这两大平台上,谷歌自然也成为不可撼动的默认搜索引擎。

做搜索引擎,既复杂,又简单

 

搜索引擎是种神奇的事物——既复杂无比,又简单纯粹。

 

实际上,搜索引擎所做的就是编译网页数据库(即「搜索索引」),之后在每次收到查询时浏览该数据库,从中提取并交付质量最高、相关度最强的一组页面。但这过程中的每一步,都涉及着巨大的复杂性,需要做出一连串权衡。而权衡的核心有二:时间与金钱。

 

即使创业者能建立一套不断更新的数据库,囊括互联网上的数千亿个页面,但光是它产生的存储和带宽成本就足以让地球上任何一家巨头企业破产。这还不包括每天对数据库执行无数次检索的成本。另外,搜索响应中的每一毫秒都非常重要——谷歌会在结果上方显示每次查询耗费的时间。总而言之,创业者恐怕没有足够的时间逐个查看整个数据库。

 

此外,搜索引擎的构建还要从一个基本哲学问题开始:什么叫高质量网页?创业者必须决定哪些分歧是合理的,而哪些信息属于纯粹的胡说八道,必须搞清广告占比到多少才不会过度。那些由 AI 编写且充斥着 SEO 垃圾的网站当然不好,但个人认真撰写、且同样充斥 SEO 垃圾的美食博客则还不错。

 

一旦完成了上述讨论并设定出明确的边界,那搜索引擎中就基本确定了需要保留的几千个域名。其中包括 CNN 和 Breitbart 等新闻网站,Reddit、Stack Overflow 和 Twitter 的热门讨论板,维基百科和 Craigslist 等工具服务,YouTube 和 Amazon 等服务平台,还有各类最顶级的食谱/体育/购物网络。有时候,创业者可以跟这些网站洽谈合作,以结构化方式直接获取数据,不再单独浏览各个页面。值得一提的是很多大平台都有专门的团队,有时甚至愿意免费配合。

 

之后就该放出爬虫了。这些机器人能爬取给定网页上的内容,之后查找并跟踪页面上的各个链接、索引全部页面内容,就这样完成链接、索引的查找与跟踪循环。而每次爬虫访问一个页面时,都会根据之前设定的高质量网页标准对其做评估。被认定为高质量的内容将被下载至某台服务器上,于是搜索索引开始迅速膨胀。

 

当然,爬虫也不是在哪里都受欢迎。爬虫每次打开网页,都会给内容提供商带来带宽成本。现在想象一下,一套搜索引擎每秒都会对网站上的各个页面进行加载和保存,这样的更新成本将很快超出提供商的承受能力。

 

因此,大多数网站都设置一个名为 robots.txt 的文件,用于定义哪些爬虫可以访问其内容、哪些爬虫不行,以及允许爬虫爬取哪些 URL。从技术上讲,搜索引擎完全可以不理会 robots.txt 上的规则,但这是 Web 结构和文化中的一部分。几乎所有网站都愿意接纳谷歌和 Bing,因为它们带来的可发现性已经超过了带宽成本。也有很多人会阻止特定的服务商,例如不希望亚马逊爬取并分析他们的购物网站。其他人则制定一揽子规则:除了谷歌和 Bing 外,其余爬虫概不接待。

 

很快,爬虫就会带回相当广泛的互联网快照。接下来的工作就是针对搜索引擎可能收到的每条查询,按顺序对全部页面做排名。大家可以按主题对页面做排序,这样就能划分成更小、更易于搜索的索引,而不是包罗万象的庞然大物。简单来讲,就是本地结果与本地结果匹配,购物与购物匹配,新闻与新闻匹配。我们需要使用大量机器学习技术来收集特定页面的主题和内容,同时也离不开人工协助。

 

此外,还会引入评分团队,向他们展示查询和结果,并要求他们从 0 到 10 为结果的真实性打分。有时候问题很明显,如果有人搜索「Facebook」,但响应结果的第一条居然不是 facebook.com,那肯定不能接受。但大多数情况下,我们会合并来自大量输入的评分,并将其馈送到索引和主题模型当中,之后不断重复这个过程。

 

到这里,问题才刚刚解决了一半。我们还得提高所谓“查询理解”能力,也就是意识到搜索“巨石强森”和搜索“道恩·约翰逊”的人其实是想找同样的信息。最终,我们将积累起一个庞大的同义词和相似性库,并据此重写查询以降低搜索难度。而且如谷歌所说,每天他们的引擎中都有 15%的全新搜索,所以这场理解人们真实需求和扩充新知识的赛跑将永远没有终点。

 

一段时间之后,搜索引擎正式上线了,开始获得更多人的关注、点击和偏好。这里还有一项黄金标准:如果用户在点击链接后,不再立即搜索和点击其他链接,就代表当前结果的质量令人满意。而另一方面,用户们的点击量越大,就越能了解他们真正想要的是什么。

 

此外,运行搜索引擎还需要不断在速度、成本和质量三者中取得平衡。比如,当有人输入“YouTube”并按下回车时,如果搜索整个数据库会耗费太长时间、造成不必要的带宽和存储成本;如果保留一个容纳整个互联网的数据库,不但存储成本高昂,搜索速度也会太过缓慢;如果设定只显示网络上最受欢迎的 100 个网站,就能保证速度和成本,但会存在内容不全面、质量不可靠的情况。同时,各个网站本身也在不断变化,搜索引擎的爬虫和排名系统也要持续跟进。

 

参考链接:

https://www.theverge.com/23802382/search-engine-google-neeva-android

https://www.snowflake.com/blog/snowflake-acquires-neeva-to-accelerate-search-in-the-data-cloud-through-generative-ai/

https://techcrunch.com/2023/05/21/google-challenger-neeva-gives-up-on-consumer-search-goes-all-in-on-ai-and-the-enterprise/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-07-28 14:113947

评论

发布
暂无评论
发现更多内容

解决大数据分布式计算痛点:腾讯正式开源分布式远程Shuffle服务Firestorm

科技热闻

“你好,天津”网络短视频大赛月内启动

InfoQ 天津

浪潮云说丨GPU云服务器,助力AI计划轻松实现

浪潮云

云计算

个人项目管理软件解决方案

低代码小观

项目管理 管理系统 企业管理系统 项目管理工具 企业管理工具

SAP x EMQ 碳中和方案亮相进博会,数据基础设施支撑低碳发展

EMQ映云科技

物联网 IoT mqtt 进博会 SAP

出自清华大牛之手的Redis源码核心手册,已被列为GitHub首推书籍

Java redis 编程 程序员

长隆熊猫酒店联合番禺消防大队开展“我是小小消防员”活动

江湖老铁

git submodule 添加/删除

webrtc developer

杨冰:OceanBase助力数字化转型,原生分布式数据库成核心系统首选

OceanBase 数据库

数据库 开源 分布式 云栖大会 核心系统

OceanBase 创始人阳振坤 | 十余年打磨 国产数据库之路砥砺前行

OceanBase 数据库

数据库 开发者 趋势 1024 CSDN

周傲英:替代工程只是契机,转型升级才是大势所驱

OceanBase 数据库

数据库 开源 数字化转型 云栖大会

如果明天交任务,自己做今晚能完成,而让下属做需要一周时间,怎么办?

石云升

职场经验 11月日更

腾讯大数据全场景在离线混部系统Caelus正式开源

科技热闻

去年今日我凭借这份文档,摇身一变成了被BAT大牛们看中的幸运儿

Java spring 程序员 JVM Kakfa

Nocalhost 亮相 CD Foundation 国内首届 Meetup,Keith Chan 将出席致辞

CODING DevOps

Linux Nocalhost Meetup CDF

互联网+质量基础设施服务平台,NQI一站式服务平台搭建

电微13828808271

12 高可用的应用,微众银行java面试

Java 程序员 后端

腾讯架构师推荐架构电子书:多线程+JVM+Nginx+Redis+SpringBoot

nginx redis 程序员 Spring Boot JVM

京东三面(后端)凭借这份Java面试复盘手册,已斩获60K*15offer

Java spring 程序员 算法 JVM

融合通信技术趋势和演进方向

网易云信

云通信 通信云 传输协议

OpenMLDB v0.3.0 正式发布,支持快速部署使用的单机模式

第四范式开发者社区

开源 第四范式 OpenMLDB

Python代码阅读(第55篇):获取字典的所有键或所有值的列表

Felix

Python 编程 阅读代码 字典 Python初学者

加速拥抱支持开源生态 | OceanBase 开源版3.1.1正式发布

OceanBase 数据库

数据库 开源 开发者 成绩单 DTCC

共筑数据库未来 | 2021 OceanBase 原生分布式数据库论坛回顾

OceanBase 数据库

开源 分布式 #数据库 云栖大会 圆桌论坛

OceanBase 3.2 正式发布 | 更硬核的 HTAP,TPC-H 性能提升6倍!

OceanBase 数据库

数据库 分布式 云栖大会 核心系统 一体化架构

13万字!腾讯高工手写JDK源码笔记 带你飙向实战,linux高级教程

Java 程序员 后端

新赛季集结!“百度AI创意派”正在寻找有创意的你

科技热闻

杨传辉:深挖 OceanBase 背后的技术逻辑,助力数据库核心系统升级

OceanBase 数据库

数据库 开源 分布式 数字化转型 核心系统

CVE-2017-10271漏洞复现与分析

喀拉峻

网络安全 信息安全 渗透测试

开源项目|Go 开发的一款分布式唯一 ID 生成系统

AlwaysBeta

golang 开源 Go 语言

13 高可用的服务,字节跳动今日学习内容

Java 程序员 后端

比Bing更早将LLM集成到搜索引擎中,这家由谷歌前高管创立的公司为什么还是失败了?_生成式 AI_核子可乐_InfoQ精选文章