AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

比 Bing 更早将 LLM 集成到搜索引擎中,这家由谷歌前高管创立的公司为什么还是失败了?

  • 2023-07-28
    北京
  • 本文字数:4095 字

    阅读完需:约 13 分钟

比Bing更早将LLM集成到搜索引擎中,这家由谷歌前高管创立的公司为什么还是失败了?

Neeva 更快、更简单且无广告。但做出比谷歌更好的东西,却并不足以击败谷歌。

 

在出走谷歌,创立 Neeva 以前,Sridhar Ramaswamy 曾在谷歌工作过 15 年,担任广告业务高级副总裁一职;Vivek Raghunathan 曾担任 YouTube 货币化副总裁。Ramaswamy 认为,过度依赖广告会损害搜索结果的质量,于是在 2019 年,Ramaswamy 和 Raghunathan 联合创立了搜索引擎 Neeva。Neeva 的使命是让搜索服务回归用户,旨在通过提供优先考虑用户隐私并提供无广告体验的替代方案来颠覆搜索引擎市场。

 

Neeva 从头开始构建了一个搜索堆栈,并组建了一个 50 人的小团队。Neeva 曾在短期内迅速吸引了大量用户,在推出后四个月内月活跃用户增长到 50 万。到 2022 年初,Neeva 已经将大语言模型集成到其搜索堆栈中,成为第一个为大多数查询提供引用的实时人工智能答案的搜索引擎。有人曾将 Neeva 看作是谷歌最强有力的竞争者。Neeva 在某些方面的确远远领先于谷歌,比如将 10 个蓝色链接替换为更直观的页面,并强调人工创建的信息。

 

但构建搜索引擎实际上是最容易的部分。Ramaswamy 和 Raghunathan 在宣布 Neeva 关闭的博客文章中写道:“在整个旅程中,我们发现构建搜索引擎是一回事,说服普通用转向更好的选择则完全是另一回事”。Ramaswamy 和 Raghunathan 称,他们在吸引新用户方面面临着重大挑战,再加上所有公司目前面临的困难经济环境,意味着继续目前的路线已不再可行。 他们写道:“在消费者搜索领域创建可持续业务已不再可行。” “因此,在接下来的几周内,我们将关闭 neeva.com 和我们的消费者搜索产品,并转移到新的重点领域。”

 

仅仅四年,Neeva 就停止运营了。2023 年 5 月,云数据库公司 Snowflake 以约 1.5 亿美元收购了 Neeva,未来将帮助服务企业客户利用 AI 去快速搜索和分析数据点、数据资产,获得数据洞察的能力。

Neeva:构建自有搜索索引,首批集成 AI 功能

 

Neeva 的计划来自一个简单的想法:谷歌的商业模式已经在拖累搜索引擎的进步。Ramaswamy 认为,从长远来看,这种以广告为基础的模式必然导致搜索结果劣化。要想打造更好的搜索引擎,首先需要改变激励措施。这种改变意味着不再以展示广告为诉求,而是始终把用户体验放在第一位。这种新模式不需要让用户输入查询,也不需要帮广告商收集用户数据。其目标就是帮助人们找到自己想要的页面,并避开途中的一切障碍。

 

David Pierce 在一篇分析文章中指出:“从零开始构建搜索引擎既困难又昂贵,因此很多人对此根本不感兴趣。他们选择以 10 到 25 美元的价格购买 Bing 提供的 1000 条数据搜索许可,再以此为基础添加自己的功能和界面。”而 Neeva 对于彻底改革搜索技术有很多自己的想法,因此最终决定要控制底层数据。

 

Raghunathan 表示,“我们想要加快搜索速度、充实预览内容、提供首选网站、开放个人搜索选项,但这一切都遇到了困难。”Bing API 提供的链接并不支持这些额外功能,所以 Neeva 的思路就成了空想。如果真想打造一套更好的搜索引擎,那 Neeva 就必须得亲自动手、从零起步。

 

经过两年的构建、训练、完善、再训练和再完善,Neeva 搜索引擎终于建立起完全自主的技术基础。构建自有搜索索引的一大优势就是,能给大语言模型收集到一组非常实用的训练数据。Neeva 还是首批推出 AI 搜索助手(名为 NeevaAI)的公司之一,它能总结搜索结果,有时甚至直接在页面顶端回答用户的问题。

 

Neeva 团队还建立起了带有更大图像和比较信息的购物页面,这里优先参考了 Reddit 和 Quora 等平台的结果。体育搜索也变成了漂亮的全屏记分牌。之所以这样做,就是希望大家在搜索“布拉德·皮特 IMDb”或“WhatsApp Web 版”时,Neeva 的自动补全功能会直接将用户带入网站,压根不需要中间的结果页面。Neeva 干净、简单,早期用户纷纷表示这种不骗人看广告的搜索引擎才是好引擎。

 

但打造一款好产品和让用户喜欢上它完全是两码事。毕竟 Neeva 的使用体验太不同了,用户得放弃自己上网时最简单、也最根深蒂固的习惯,才能适应这种全新设计。

 

科技行业一直有个原则,即人们不会愿意改变自己的使用习惯。Ramaswamy 在采访中坦言,“我们面临的最大障碍之一,确实就是扭转用户的固有习惯。人们忘记了谷歌的成功不仅仅是开发出了更好的产品。为了实现目标,我们必须做出一系列精准的分发决策。”

 

据报道,谷歌每年向苹果支付高达 150 亿美元,为的就是能在各类苹果设备的 Safari 浏览器中成为默认搜索引擎。谷歌同时也向 Mozilla 支付费用,借此成为 Firefox 浏览器中的首选搜索引擎。而这笔费用高达每年 4.5 亿美元。谷歌还跟其他设备制造商和浏览器开发商有合作,甚至跟电信运营商也有类似的交易。据《华尔街日报》报道,三星曾在 2023 年短暂考虑结束与谷歌的交易,但由于各种原因而最终放弃,其中包括“可能对与谷歌间的广泛业务关系产生影响”。

 

谷歌的真正优势在于旗下的其它产品。Android 是目前全球最受欢迎的移动操作系统,市场份额约占 78%。Chrome 则是最受欢迎的网络浏览器,市场占比约 62%。在这两大平台上,谷歌自然也成为不可撼动的默认搜索引擎。

做搜索引擎,既复杂,又简单

 

搜索引擎是种神奇的事物——既复杂无比,又简单纯粹。

 

实际上,搜索引擎所做的就是编译网页数据库(即「搜索索引」),之后在每次收到查询时浏览该数据库,从中提取并交付质量最高、相关度最强的一组页面。但这过程中的每一步,都涉及着巨大的复杂性,需要做出一连串权衡。而权衡的核心有二:时间与金钱。

 

即使创业者能建立一套不断更新的数据库,囊括互联网上的数千亿个页面,但光是它产生的存储和带宽成本就足以让地球上任何一家巨头企业破产。这还不包括每天对数据库执行无数次检索的成本。另外,搜索响应中的每一毫秒都非常重要——谷歌会在结果上方显示每次查询耗费的时间。总而言之,创业者恐怕没有足够的时间逐个查看整个数据库。

 

此外,搜索引擎的构建还要从一个基本哲学问题开始:什么叫高质量网页?创业者必须决定哪些分歧是合理的,而哪些信息属于纯粹的胡说八道,必须搞清广告占比到多少才不会过度。那些由 AI 编写且充斥着 SEO 垃圾的网站当然不好,但个人认真撰写、且同样充斥 SEO 垃圾的美食博客则还不错。

 

一旦完成了上述讨论并设定出明确的边界,那搜索引擎中就基本确定了需要保留的几千个域名。其中包括 CNN 和 Breitbart 等新闻网站,Reddit、Stack Overflow 和 Twitter 的热门讨论板,维基百科和 Craigslist 等工具服务,YouTube 和 Amazon 等服务平台,还有各类最顶级的食谱/体育/购物网络。有时候,创业者可以跟这些网站洽谈合作,以结构化方式直接获取数据,不再单独浏览各个页面。值得一提的是很多大平台都有专门的团队,有时甚至愿意免费配合。

 

之后就该放出爬虫了。这些机器人能爬取给定网页上的内容,之后查找并跟踪页面上的各个链接、索引全部页面内容,就这样完成链接、索引的查找与跟踪循环。而每次爬虫访问一个页面时,都会根据之前设定的高质量网页标准对其做评估。被认定为高质量的内容将被下载至某台服务器上,于是搜索索引开始迅速膨胀。

 

当然,爬虫也不是在哪里都受欢迎。爬虫每次打开网页,都会给内容提供商带来带宽成本。现在想象一下,一套搜索引擎每秒都会对网站上的各个页面进行加载和保存,这样的更新成本将很快超出提供商的承受能力。

 

因此,大多数网站都设置一个名为 robots.txt 的文件,用于定义哪些爬虫可以访问其内容、哪些爬虫不行,以及允许爬虫爬取哪些 URL。从技术上讲,搜索引擎完全可以不理会 robots.txt 上的规则,但这是 Web 结构和文化中的一部分。几乎所有网站都愿意接纳谷歌和 Bing,因为它们带来的可发现性已经超过了带宽成本。也有很多人会阻止特定的服务商,例如不希望亚马逊爬取并分析他们的购物网站。其他人则制定一揽子规则:除了谷歌和 Bing 外,其余爬虫概不接待。

 

很快,爬虫就会带回相当广泛的互联网快照。接下来的工作就是针对搜索引擎可能收到的每条查询,按顺序对全部页面做排名。大家可以按主题对页面做排序,这样就能划分成更小、更易于搜索的索引,而不是包罗万象的庞然大物。简单来讲,就是本地结果与本地结果匹配,购物与购物匹配,新闻与新闻匹配。我们需要使用大量机器学习技术来收集特定页面的主题和内容,同时也离不开人工协助。

 

此外,还会引入评分团队,向他们展示查询和结果,并要求他们从 0 到 10 为结果的真实性打分。有时候问题很明显,如果有人搜索「Facebook」,但响应结果的第一条居然不是 facebook.com,那肯定不能接受。但大多数情况下,我们会合并来自大量输入的评分,并将其馈送到索引和主题模型当中,之后不断重复这个过程。

 

到这里,问题才刚刚解决了一半。我们还得提高所谓“查询理解”能力,也就是意识到搜索“巨石强森”和搜索“道恩·约翰逊”的人其实是想找同样的信息。最终,我们将积累起一个庞大的同义词和相似性库,并据此重写查询以降低搜索难度。而且如谷歌所说,每天他们的引擎中都有 15%的全新搜索,所以这场理解人们真实需求和扩充新知识的赛跑将永远没有终点。

 

一段时间之后,搜索引擎正式上线了,开始获得更多人的关注、点击和偏好。这里还有一项黄金标准:如果用户在点击链接后,不再立即搜索和点击其他链接,就代表当前结果的质量令人满意。而另一方面,用户们的点击量越大,就越能了解他们真正想要的是什么。

 

此外,运行搜索引擎还需要不断在速度、成本和质量三者中取得平衡。比如,当有人输入“YouTube”并按下回车时,如果搜索整个数据库会耗费太长时间、造成不必要的带宽和存储成本;如果保留一个容纳整个互联网的数据库,不但存储成本高昂,搜索速度也会太过缓慢;如果设定只显示网络上最受欢迎的 100 个网站,就能保证速度和成本,但会存在内容不全面、质量不可靠的情况。同时,各个网站本身也在不断变化,搜索引擎的爬虫和排名系统也要持续跟进。

 

参考链接:

https://www.theverge.com/23802382/search-engine-google-neeva-android

https://www.snowflake.com/blog/snowflake-acquires-neeva-to-accelerate-search-in-the-data-cloud-through-generative-ai/

https://techcrunch.com/2023/05/21/google-challenger-neeva-gives-up-on-consumer-search-goes-all-in-on-ai-and-the-enterprise/

2023-07-28 14:114509

评论

发布
暂无评论
发现更多内容

软件测试/测试开发丨自动化测试定位策略实战-测试人论坛搜索

测试人

程序员 软件测试 自动化测试 测试开发

点云分割技术的发展现状及挑战

来自四九城儿

MobTech 秒验|运营商网关取号​

MobTech袤博科技

软件测试|pyecharts绘制NBA球星得分能力对比图

霍格沃兹测试开发学社

开发者们:618电商团战即将开启,“抢流量”想上分,必备这三个大招 | MobTech观察

MobTech袤博科技

软件测试|Python操作Excel制作报表,不要太方便

霍格沃兹测试开发学社

Solaris Exchange:一个安全可靠的合成资产交易平台

股市老人

聊聊 Milvus GC:从一次数据丢失事件展开

Zilliz

非结构化数据 GC Milvus 向量数据库

理解JVM工作机制(五)垃圾回收算法

Geek漫游指南

Java jdk JVM

2023-05-24:为什么要使用Redis做缓存?

福大大架构师每日一题

redis 福大大

面试进阶齐飞!Github一天10w赞的阿里Java系统性能优化笔记有多牛?

程序员小毕

JVM 面试题 架构师 java面试 Java性能优化

激发创造力!如何轻松录制PPT和人像视频

淋雨

PPT Camtasia 录屏

伟大的公司只需要十一人

Openlab_cosmoplat

开源 MidJourney

软件测试|Python实用炫酷技能——推导式

霍格沃兹测试开发学社

3D设计必备!5个免高质量的 HDRI 环境贴图网站

Finovy Cloud

blender

理解 JVM 工作机制(九) 类文件结构

Geek漫游指南

Java jdk JVM

塞尔达工业革命卷到数字电路了!网友:怕不是要在Switch里造Switch

Openlab_cosmoplat

我国首例汽车企业全业务场景数据出境安全评估获批

Openlab_cosmoplat

大数据 开源 汽车

人体识别图像技术在智能家居中的应用

来自四九城儿

软件测试|简单易学的性能监控体系prometheus+grafana搭建教程

霍格沃兹测试开发学社

理解 JVM 工作机制(七) 内存分配和回收策略

Geek漫游指南

Java jdk JVM

c#中用System.Diagnostics.Process.Start(Path.GetFullPath(“vlc.exe.lnk“), url);用vlc的快捷方式打开http的url不起作用?

福大大架构师每日一题

C# 福大大 vlc

CMake入门教程:从零开始构建C/C++项目

小万哥

程序员 后端 开发 C/C++ cmake

基于 Amazon API Gatewy 的跨账号跨网络的私有 API 集成

亚马逊云科技 (Amazon Web Services)

Amazon

软件测试|码农必会的git操作(一)

霍格沃兹测试开发学社

理解 JVM 工作机制(八) JVM 性能调优

Geek漫游指南

Java jdk JVM

理解 JVM 工作机制(十) 类加载机制和加载的过程

Geek漫游指南

Java jdk JVM

理解 JVM 工作机制(十一) 类加载器

Geek漫游指南

Java jdk JVM

Sprint回顾会及Scrum工具

顿顿顿

Scrum 敏捷开发 敏捷项目管理 敏捷开发管理工具 sprint回顾会

理解 JVM 工作机制(四) 回收策略

Geek漫游指南

Java jdk JVM

理解 JVM 工作机制(六) 垃圾收集器

Geek漫游指南

Java jdk JVM

比Bing更早将LLM集成到搜索引擎中,这家由谷歌前高管创立的公司为什么还是失败了?_生成式 AI_核子可乐_InfoQ精选文章