NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

连代码都没写就敢要融资:被 ChatGPT 带火的向量数据库,带来了一大波造富神话

  • 2023-05-31
    北京
  • 本文字数:4085 字

    阅读完需:约 13 分钟

连代码都没写就敢要融资:被ChatGPT带火的向量数据库,带来了一大波造富神话

“我见过 10 多个数据库突然变成了向量数据库!”

 

“我预测每个数据库都会突然原生支持向量嵌入和向量搜索。”

 

“是的,兄弟,我的向量数据库初创公司刚刚结束了 A 轮融资。”

 

......

 

OpenAI 掀起的这波 AI 变革,让向量数据库越来越受关注。

 

AI 技术不断向前发展,一个核心驱动因素,就是背后的存储、处理和分析大量数据所需要的强大基础设施也在不断发生进步。这波“新基建”浪潮也催生出又一颗冉冉升起的新星——向量数据库,一种用于管理非结构化数据,包括数字形式的文本、音频、图像和视频的强大解决方案。

 

随着市场对 AI 基础设施需求的不断增加,向量数据库预计也将保持强劲的发展势头,并一步步成为未来 AI 技术愿景的重要基石。

 

新型数据库成就一批新富豪

 

数据库领域经历过一系列发展阶段。最早的是 SQL 类关系数据库,其中所有数据都被纳入结构化的矩形表中。Web 2.0 企业的需求增长引发了 NoSQL 革命,数据库变得更加灵活,能够处理体量更大的数据。如今,随着市场为 AI 技术积极筹划,向量数据库的时代也终于来临。

 

与传统数据库不同,向量数据库特别擅长从非结构化数据中提取见解。这些数据库使用向量嵌入来表示数值型数据,并将其排列在彼此相似的一个个聚类当中,能够帮助用户使用相似对象查询数据库,从而轻松比较并找出最适合的匹配项。向量搜索的另一个优势就是这类查询延迟更低,特别适合生成式 AI 应用。

 


受到近期 AI 炒作的影响,更多企业开始大力投资向量数据库以提升算法准确性和效率。据相关统计,2023 年 4 月的 AI 投资领域呈增长趋势,尤其是向量数据库领域的投资活动颇为活跃,Pinecone、Chroma 和 Weviate 等向量数据库初创公司都在这个月获得了融资。

 


让我们具体来看看向量数据库领域非同一般的融资情况。

 

这个月,Pinecone 宣布以 7.5 亿美元的投后估值完成 1 亿美元的 B 轮融资。本轮融资由 Andreessen Horowitz 领投,加上去年的 2800 万美元的 A 轮融资和 2021 年的 1000 万美元的种子轮融资,该公司已累计筹集 1.38 亿美元。

 

Pinecone是一款云原生向量数据库,专为高性能、低延迟和可扩展的向量相似性搜索而设计。它能够处理密集和稀疏向量,因此成为各种用例的理想通用选项。Pinecone 提供易于使用的 API,用户只需编写几行代码就能实现向量的添加、搜索和检索。

 

开源搜索引擎 Weviate 的开发商 SeMI Technologies 于去年 2 月宣布拿下由 New Enterprise Associates 和 Cortical Ventures 领投的 1600 万美元 A 轮融资。

 

今年 4 月,Weaviate 再次获得 5000 万美元 B 轮融资。

 

Weaviate 是一款功能丰富的向量数据库,专为复杂的数据建模和搜索用例而生。它提供 GraphQL API,支持向量相似性搜索和一系列其他高级搜索与过滤功能。Weaviate 能够存储和搜索各种数据类型,包括结构化数据、非结构化数据和图像。

 

同月,向量数据库初创公司 Chroma 也获得了 1800 万美元的种子资金,估值达到 7500 万美元。

 

Chroma 是一款简单的轻量级向量搜索数据库,可用于构建内存内的文档-向量存储。它以 Apache Cassandra 为基础,提供易于使用的 API。Chroma 的核心优势就是简单性。它能快速完成设定和配置,无需任何特殊硬件或软件。

 

但值得注意的是,Chroma 上个月在 GitHub 上只获得 1.2k star。

 

最近,另一家开发开源向量搜索引擎和非结构化数据库的德国初创公司 Qdrant 也刚刚获得 750 万美元种子资金,领投方为 Unusual Ventures、42cap 和 IBB Ventures,另有包括 Cloudera 联合创始人 Amr Awadallah 在内的一众天使投资人跟投。

 

就目前的情况看,跟以往的其他新技术一样,我们恐怕很难区分向量数据库领域的虚假炒作与真实优势。谷歌开发专家 Jeff Delaney 就在他的节目上(搞笑地?)谈到他在尚无任何收入、商业计划甚至是实际代码可以展示的情况下,凭借 Rektor 向量数据库初创项目让公司估值飙升至 4.2 亿美元,并呼吁大家为其投资。

 



社交媒体上,关于向量数据库的段子也明显多了起来。

 




被 ChatGPT 带火的向量数据库

 

向量数据库的兴起,与生成式 AI 应用对“嵌入”概念的日益推崇密切相关。嵌入是一种高维向量,可表示连续数字空间中的非结构化数据,例如文本、图像和音频等。在 NLP 场景下,嵌入以向量格式表示单词或句子的语义和句法,并可作为输入被馈送至深度学习模型当中。

 

例如,“我爱披萨”这句话就可以表示为一个 300 维的向量,其中每个维度代表句子的特定特征或属性,例如字数、是否存在某些关键字或情绪倾向等。为自然语言生成嵌入的过程,往往是由预训练语言模型(例如 OpenAI GPT 或 BERT)来完成。

 

嵌入向量的长度不受限制,可以根据具体用例和用于生成嵌入的模型而有所变化。嵌入的质量越高,语言建模、情感分析、机器翻译和问答系统等 NLP 任务的性能表现也就越好。

 

大语言模型(LLM)就是高度依赖嵌入的先进 AI 用例之一。这些模型往往包含数十亿个参数,嵌入则广泛作用于这些模型的训练和微调过程,使其获得执行各种 NLP 任务的能力。

 

SQL 数据库在处理高维嵌入方面的局限性

 

SQL 数据库擅长处理具有固定模式的结构化数据,各条目通常存储在行和列构成的表内。与之相反,嵌入属于高维向量,表示连续数字空间中的非结构化数据,例如文本、图像和音频。嵌入可以包含数百甚至几千个维度,因此不适合被存储在专门针对小型、固定维度数据集进行优化的传统 SQL 数据库内。

 

向量数据库在设计上特别适合处理高维向量,例如嵌入,因此可以为大量非结构化数据的存储、查询和分析提供更具可扩展性的效率优势的解决方案。凭借高效处理数千列相似性搜索的能力,向量数据库已经成为 AI 基础设施中的重要组成部分,为各类大语言模型和其他高级 AI 应用提供支持。

 

向量数据库的嵌入处理优势源自以下几个特性:

  1. 高效存储:向量数据库强调对高维向量的高效存储,能够在最小存储空间下处理大量数据。这一点对于包含数百或几千个维度的嵌入而言非常重要。

  2. 高性能相似性搜索:向量数据库使用专门的算法和数据结构对嵌入进行高性能的相似性搜索。用户可以借此快速找到与给定查询最接近的嵌入,因此非常适合对图像或文本的相似性搜索任务。

  3. 可扩展性:向量数据库具备良好的可扩展性,能够轻松处理大规模数据集。这一点对嵌入非常重要,自然也能良好支持广泛依赖嵌入的大语言模型和其他 AI 应用。

  4. 灵活性:向量数据库能够处理各种数据类型,包括文本、图像、音频和视频,因此广泛适合各类 AI 应用。

 

总体而言,向量数据库在设计上非常适合处理高维向量(例如嵌入),这也使其成为现代 AI 基础设施中的重要组成部分。

 

通过语义搜索实现 ChatGPT 定制

OpenAI 的嵌入方法是一种无监督学习方法,也被称为“表示学习”。该模型能够学会特定的数据表示方式,在无需明确了解须提取哪些特征或如何表示数据的情况下,即可完成自然语言处理等下游任务。这种方法在大语言模型训练当中效果拔群,能够准确地生成顺畅自然的文本内容。

 

但 OpenAI 模型也有自己的局限,那就是只能处理有限数量的输入数据。例如,ChatGPT 3.5 的 token 上限为 4096,意味着如果没有额外技术的加持,它就无法搜索更大的数据库。而嵌入的意义也正在于此。

 

向量数据库凭借在非结构化数据中提取见解的能力而愈发流行,其重要特征体现在语义搜索等高级 AI 应用当中。语义搜索的效果与 ChatGPT 类似,但可以在自定义知识库上运行。这里的知识可以是客户关系管理(CRM)数据,技术手册甚至是研发信息。但要实现语义搜索,数据首先需要被存储在支持低延迟查询的位置,而向量数据库就凭借种种优势而特别适合这项工作。因此,向量数据库的日益流行,也反映出越来越多的企业有意基于内部知识打造属于自己的定制化 ChatGPT。

 

竞争激烈程度持续提升

当然,Postgres 和 NoSQL 数据库 Redis 这类传统方案在 AI 时代也占据着一席之地。Postgres 同样具备 Pgvector 向量/相似性搜索功能。

 

为了不被时代抛弃,老牌数据库厂商正通过 AI 相关服务巩固自身业务。例如,甲骨文就推出一系列 AI 算法,并以“数据库内高速学习”为宣传重点。IBM 的传统 db2 如今也被更名为“AI 数据库”,利用机器学习技术改善查询性能并提供“基于置信度的查询”功能。

 

此外,领域中的老牌劲旅(如微软)也开始提供在自定义知识库上构建 AI 应用的解决方案。例如,Azure Cognitive Search 就能帮助企业构建并部署基于向量数据库功能的 AI 应用。Matchlt 则是谷歌开发的向量搜索解决方案。可以看到,新老势力正纷纷登场,希望能为想要在 AI 流程中引入向量数据库的客户提供有价值的技术服务。

 

如果说 AI 已经成为众多企业的研究前沿和中心,那么面向 AI 的基础设施自然会随之升温。

 


资料来源:GradientFlow.com

 

SeMI Technologies 公司 CEO Bob van Lujit解释了Weviate这样的厂商跟传统关系数据库供应商之间的区别。“这是我们第一次打造 AI 优先的基础设施,希望在数据科学成果跟市场业务需求之间架起桥梁。”

 

软件服务初创公司 Heltar 的创始人 Avyukt Aggarwal 也解释了向量数据库与生成式 AI 工具间的紧密联系。“每一场淘金热都不缺卖铲子的人。对于生成式 AI,这里的铲子是什么?就是向量数据库。几乎一切由大语言模型支持的应用程序都在用向量数据库,或者即将用上。大语言模型被集成到几乎所有主流应用当中,而提供一揽子托管向量数据库的厂商就是在挣淘金热当中卖铲子的钱。”

 


资料来源:Dhruv Anand 是谷歌前工程师,也是科技创新初创企业 AI Northstar tech 的创始人。

 

把向量数据库称为生成式 AI 的“铲子”并不为过。随着 AI 应用在企业生产部署中的快速普及,对高质量向量数据库的需求也重现了 SQL 在当年云黄金期的辉煌。

 

参考链接:

https://techcrunch.com/2023/04/27/pinecone-drops-100m-investment-on-750m-valuation-as-vector-database-demand-grows/

https://thenewstack.io/vector-databases-long-term-memory-for-artificial-intelligence/

https://twitter.com/GPTDAOCN/status/1658238286605975552

https://twitter.com/mattturck/status/1648825069177634820

https://github.com/codediodeio/rektor-db

https://www.youtube.com/watch?v=klTvEwg3oJ4

https://analyticsindiamag.com/why-are-investors-flocking-to-vector-databases/

https://www.relataly.com/vector-databases-the-rising-star-in-generative-ai-infrastructure/13599/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-05-31 17:3710218

评论

发布
暂无评论
发现更多内容

11月必须要了解的一项福利

夏夜许游

AI 双十一 视觉智能

如何更改 datax 以支持hive 的 DECIMAL 数据类型?

明哥的IT随笔

hadoop hive

移动开发热更新技术选型盘点

Onegun

移动开发 热更新

Sanitizers 系列之 leak sanitizer 介绍

网易云信

系统

用git上传项目到GitHub或者码云全过程

肥晨

代码上传 githun 11月月更 Git上传

几个你必须知道的React错误实践

xiaofeng

React

前台小姐姐是如何转行测试,从月薪3000到月薪15K,实现逆袭

千锋IT教育

科普 | 关于NFT的概念、价值及应用

NFT Research

Backdrop Filter

肥晨

css3 css特效 11月月更 css滤镜

vue中的几个高级概念

yyds2026

Vue

从事分布式工作10余年,这本书颠覆了我的认知!

博文视点Broadview

一路同行,再聚乌镇 | 旺链科技与你相约世界互联网大会

旺链科技

产业区块链 世界互联网大会 乌镇 企业号十月PK榜

webpack热更新原理(面试大概率会问)

Geek_02d948

webpack

CSS3渐变-快来感受CSS的伟大吧(差点闪瞎我的狗眼)

肥晨

11月月更 css3渐变 conic-gradient

测试小白到月薪30K+的测试大佬学习路线图

千锋IT教育

即时通讯技术文集(第4期):不为人知的网络编程 [共14篇]

JackJiang

【设计模式】-创建型模式-第2章第1讲-【单例模式】

跟着飞哥学编程

设计模式 单例模式 java 编程 11月月更

你要的react+ts最佳实践指南

xiaofeng

React

pyside6 qml 自定义边框

Mr_No爱学习

Ten Million-Level Capacity Storage Solution of Student Management System - Examination

David

架构实战营

【解决】前端开发中的5大痛点

GFE

前端

Python 实现栈的几种方式及其优劣

宇宙之一粟

Python 数据结构 11月月更

vue3实战-完全掌握ref、reactive

yyds2026

Zepoch节点已售出500+,Zebec Chain市场反响激烈

鳄鱼视界

开源!非凸Rust高性能日志库ftlog

非凸科技

“鸿蒙生态专家面对面”技术交流会,专家齐聚,等你前来!

HarmonyOS开发者

HarmonyOS

webpack配置优化,让你的构建速度飞起

Geek_02d948

webpack

【网易云信】Sanitizers 系列之 leak sanitizer 介绍

网易智企

vue实战-完全掌握Vue自定义指令

yyds2026

Vue

指南

Geek_02d948

webpack

升级到React-Router-v6

xiaofeng

React

连代码都没写就敢要融资:被ChatGPT带火的向量数据库,带来了一大波造富神话_AI&大模型_Tina_InfoQ精选文章