亮网络解锁器,解锁网络数据的无限可能 了解详情
写点什么

连代码都没写就敢要融资:被 ChatGPT 带火的向量数据库,带来了一大波造富神话

  • 2023-05-31
    北京
  • 本文字数:4085 字

    阅读完需:约 13 分钟

连代码都没写就敢要融资:被ChatGPT带火的向量数据库,带来了一大波造富神话

“我见过 10 多个数据库突然变成了向量数据库!”

 

“我预测每个数据库都会突然原生支持向量嵌入和向量搜索。”

 

“是的,兄弟,我的向量数据库初创公司刚刚结束了 A 轮融资。”

 

......

 

OpenAI 掀起的这波 AI 变革,让向量数据库越来越受关注。

 

AI 技术不断向前发展,一个核心驱动因素,就是背后的存储、处理和分析大量数据所需要的强大基础设施也在不断发生进步。这波“新基建”浪潮也催生出又一颗冉冉升起的新星——向量数据库,一种用于管理非结构化数据,包括数字形式的文本、音频、图像和视频的强大解决方案。

 

随着市场对 AI 基础设施需求的不断增加,向量数据库预计也将保持强劲的发展势头,并一步步成为未来 AI 技术愿景的重要基石。

 

新型数据库成就一批新富豪

 

数据库领域经历过一系列发展阶段。最早的是 SQL 类关系数据库,其中所有数据都被纳入结构化的矩形表中。Web 2.0 企业的需求增长引发了 NoSQL 革命,数据库变得更加灵活,能够处理体量更大的数据。如今,随着市场为 AI 技术积极筹划,向量数据库的时代也终于来临。

 

与传统数据库不同,向量数据库特别擅长从非结构化数据中提取见解。这些数据库使用向量嵌入来表示数值型数据,并将其排列在彼此相似的一个个聚类当中,能够帮助用户使用相似对象查询数据库,从而轻松比较并找出最适合的匹配项。向量搜索的另一个优势就是这类查询延迟更低,特别适合生成式 AI 应用。

 


受到近期 AI 炒作的影响,更多企业开始大力投资向量数据库以提升算法准确性和效率。据相关统计,2023 年 4 月的 AI 投资领域呈增长趋势,尤其是向量数据库领域的投资活动颇为活跃,Pinecone、Chroma 和 Weviate 等向量数据库初创公司都在这个月获得了融资。

 


让我们具体来看看向量数据库领域非同一般的融资情况。

 

这个月,Pinecone 宣布以 7.5 亿美元的投后估值完成 1 亿美元的 B 轮融资。本轮融资由 Andreessen Horowitz 领投,加上去年的 2800 万美元的 A 轮融资和 2021 年的 1000 万美元的种子轮融资,该公司已累计筹集 1.38 亿美元。

 

Pinecone是一款云原生向量数据库,专为高性能、低延迟和可扩展的向量相似性搜索而设计。它能够处理密集和稀疏向量,因此成为各种用例的理想通用选项。Pinecone 提供易于使用的 API,用户只需编写几行代码就能实现向量的添加、搜索和检索。

 

开源搜索引擎 Weviate 的开发商 SeMI Technologies 于去年 2 月宣布拿下由 New Enterprise Associates 和 Cortical Ventures 领投的 1600 万美元 A 轮融资。

 

今年 4 月,Weaviate 再次获得 5000 万美元 B 轮融资。

 

Weaviate 是一款功能丰富的向量数据库,专为复杂的数据建模和搜索用例而生。它提供 GraphQL API,支持向量相似性搜索和一系列其他高级搜索与过滤功能。Weaviate 能够存储和搜索各种数据类型,包括结构化数据、非结构化数据和图像。

 

同月,向量数据库初创公司 Chroma 也获得了 1800 万美元的种子资金,估值达到 7500 万美元。

 

Chroma 是一款简单的轻量级向量搜索数据库,可用于构建内存内的文档-向量存储。它以 Apache Cassandra 为基础,提供易于使用的 API。Chroma 的核心优势就是简单性。它能快速完成设定和配置,无需任何特殊硬件或软件。

 

但值得注意的是,Chroma 上个月在 GitHub 上只获得 1.2k star。

 

最近,另一家开发开源向量搜索引擎和非结构化数据库的德国初创公司 Qdrant 也刚刚获得 750 万美元种子资金,领投方为 Unusual Ventures、42cap 和 IBB Ventures,另有包括 Cloudera 联合创始人 Amr Awadallah 在内的一众天使投资人跟投。

 

就目前的情况看,跟以往的其他新技术一样,我们恐怕很难区分向量数据库领域的虚假炒作与真实优势。谷歌开发专家 Jeff Delaney 就在他的节目上(搞笑地?)谈到他在尚无任何收入、商业计划甚至是实际代码可以展示的情况下,凭借 Rektor 向量数据库初创项目让公司估值飙升至 4.2 亿美元,并呼吁大家为其投资。

 



社交媒体上,关于向量数据库的段子也明显多了起来。

 




被 ChatGPT 带火的向量数据库

 

向量数据库的兴起,与生成式 AI 应用对“嵌入”概念的日益推崇密切相关。嵌入是一种高维向量,可表示连续数字空间中的非结构化数据,例如文本、图像和音频等。在 NLP 场景下,嵌入以向量格式表示单词或句子的语义和句法,并可作为输入被馈送至深度学习模型当中。

 

例如,“我爱披萨”这句话就可以表示为一个 300 维的向量,其中每个维度代表句子的特定特征或属性,例如字数、是否存在某些关键字或情绪倾向等。为自然语言生成嵌入的过程,往往是由预训练语言模型(例如 OpenAI GPT 或 BERT)来完成。

 

嵌入向量的长度不受限制,可以根据具体用例和用于生成嵌入的模型而有所变化。嵌入的质量越高,语言建模、情感分析、机器翻译和问答系统等 NLP 任务的性能表现也就越好。

 

大语言模型(LLM)就是高度依赖嵌入的先进 AI 用例之一。这些模型往往包含数十亿个参数,嵌入则广泛作用于这些模型的训练和微调过程,使其获得执行各种 NLP 任务的能力。

 

SQL 数据库在处理高维嵌入方面的局限性

 

SQL 数据库擅长处理具有固定模式的结构化数据,各条目通常存储在行和列构成的表内。与之相反,嵌入属于高维向量,表示连续数字空间中的非结构化数据,例如文本、图像和音频。嵌入可以包含数百甚至几千个维度,因此不适合被存储在专门针对小型、固定维度数据集进行优化的传统 SQL 数据库内。

 

向量数据库在设计上特别适合处理高维向量,例如嵌入,因此可以为大量非结构化数据的存储、查询和分析提供更具可扩展性的效率优势的解决方案。凭借高效处理数千列相似性搜索的能力,向量数据库已经成为 AI 基础设施中的重要组成部分,为各类大语言模型和其他高级 AI 应用提供支持。

 

向量数据库的嵌入处理优势源自以下几个特性:

  1. 高效存储:向量数据库强调对高维向量的高效存储,能够在最小存储空间下处理大量数据。这一点对于包含数百或几千个维度的嵌入而言非常重要。

  2. 高性能相似性搜索:向量数据库使用专门的算法和数据结构对嵌入进行高性能的相似性搜索。用户可以借此快速找到与给定查询最接近的嵌入,因此非常适合对图像或文本的相似性搜索任务。

  3. 可扩展性:向量数据库具备良好的可扩展性,能够轻松处理大规模数据集。这一点对嵌入非常重要,自然也能良好支持广泛依赖嵌入的大语言模型和其他 AI 应用。

  4. 灵活性:向量数据库能够处理各种数据类型,包括文本、图像、音频和视频,因此广泛适合各类 AI 应用。

 

总体而言,向量数据库在设计上非常适合处理高维向量(例如嵌入),这也使其成为现代 AI 基础设施中的重要组成部分。

 

通过语义搜索实现 ChatGPT 定制

OpenAI 的嵌入方法是一种无监督学习方法,也被称为“表示学习”。该模型能够学会特定的数据表示方式,在无需明确了解须提取哪些特征或如何表示数据的情况下,即可完成自然语言处理等下游任务。这种方法在大语言模型训练当中效果拔群,能够准确地生成顺畅自然的文本内容。

 

但 OpenAI 模型也有自己的局限,那就是只能处理有限数量的输入数据。例如,ChatGPT 3.5 的 token 上限为 4096,意味着如果没有额外技术的加持,它就无法搜索更大的数据库。而嵌入的意义也正在于此。

 

向量数据库凭借在非结构化数据中提取见解的能力而愈发流行,其重要特征体现在语义搜索等高级 AI 应用当中。语义搜索的效果与 ChatGPT 类似,但可以在自定义知识库上运行。这里的知识可以是客户关系管理(CRM)数据,技术手册甚至是研发信息。但要实现语义搜索,数据首先需要被存储在支持低延迟查询的位置,而向量数据库就凭借种种优势而特别适合这项工作。因此,向量数据库的日益流行,也反映出越来越多的企业有意基于内部知识打造属于自己的定制化 ChatGPT。

 

竞争激烈程度持续提升

当然,Postgres 和 NoSQL 数据库 Redis 这类传统方案在 AI 时代也占据着一席之地。Postgres 同样具备 Pgvector 向量/相似性搜索功能。

 

为了不被时代抛弃,老牌数据库厂商正通过 AI 相关服务巩固自身业务。例如,甲骨文就推出一系列 AI 算法,并以“数据库内高速学习”为宣传重点。IBM 的传统 db2 如今也被更名为“AI 数据库”,利用机器学习技术改善查询性能并提供“基于置信度的查询”功能。

 

此外,领域中的老牌劲旅(如微软)也开始提供在自定义知识库上构建 AI 应用的解决方案。例如,Azure Cognitive Search 就能帮助企业构建并部署基于向量数据库功能的 AI 应用。Matchlt 则是谷歌开发的向量搜索解决方案。可以看到,新老势力正纷纷登场,希望能为想要在 AI 流程中引入向量数据库的客户提供有价值的技术服务。

 

如果说 AI 已经成为众多企业的研究前沿和中心,那么面向 AI 的基础设施自然会随之升温。

 


资料来源:GradientFlow.com

 

SeMI Technologies 公司 CEO Bob van Lujit解释了Weviate这样的厂商跟传统关系数据库供应商之间的区别。“这是我们第一次打造 AI 优先的基础设施,希望在数据科学成果跟市场业务需求之间架起桥梁。”

 

软件服务初创公司 Heltar 的创始人 Avyukt Aggarwal 也解释了向量数据库与生成式 AI 工具间的紧密联系。“每一场淘金热都不缺卖铲子的人。对于生成式 AI,这里的铲子是什么?就是向量数据库。几乎一切由大语言模型支持的应用程序都在用向量数据库,或者即将用上。大语言模型被集成到几乎所有主流应用当中,而提供一揽子托管向量数据库的厂商就是在挣淘金热当中卖铲子的钱。”

 


资料来源:Dhruv Anand 是谷歌前工程师,也是科技创新初创企业 AI Northstar tech 的创始人。

 

把向量数据库称为生成式 AI 的“铲子”并不为过。随着 AI 应用在企业生产部署中的快速普及,对高质量向量数据库的需求也重现了 SQL 在当年云黄金期的辉煌。

 

参考链接:

https://techcrunch.com/2023/04/27/pinecone-drops-100m-investment-on-750m-valuation-as-vector-database-demand-grows/

https://thenewstack.io/vector-databases-long-term-memory-for-artificial-intelligence/

https://twitter.com/GPTDAOCN/status/1658238286605975552

https://twitter.com/mattturck/status/1648825069177634820

https://github.com/codediodeio/rektor-db

https://www.youtube.com/watch?v=klTvEwg3oJ4

https://analyticsindiamag.com/why-are-investors-flocking-to-vector-databases/

https://www.relataly.com/vector-databases-the-rising-star-in-generative-ai-infrastructure/13599/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-05-31 17:3710262

评论

发布
暂无评论
发现更多内容

VideoProc Converter for mac(全能视频处理软件)v6.3中文激活版

影影绰绰一往直前

​食品饮料行业如何进行数字化转型?

万界星空科技

数字化转型 mes 万界星空科技 食品饮料行业数字化转型 食品MES

Permute 3 for mac(全能媒体格式转换器)v3.11.4中文版下载

iMac小白

Lyn for Mac(轻量级图像查看器)v2.3.7中文版

影影绰绰一往直前

SnippetsLab for Mac(mac代码管理器)v2.4.0激活版

影影绰绰一往直前

大家都在用哪些开源项目系统?20款推荐

PingCode

开源 项目管理 项目管理工具

Bike for Mac(创意写作软件)v1.18(168)激活版

影影绰绰一往直前

智能开发助手——华为云CodeArts Snap,揭开智能研发新篇章

华为云PaaS服务小智

人工智能 华为云

鸿蒙Next来了,企业应该如何快速应对

Onegun

鸿蒙 鸿蒙系统

百度基于金融场景构建高实时、高可用的分布式数据传输系统的技术实践

JackJiang

网络编程 即时通讯 IM

Web Components从技术解析到生态应用个人心得指北

zhoulujun

4K Tokkit Pro for Mac(TikTok内容下载工具)v2.5.0激活版

影影绰绰一往直前

Project项目管理软件好用吗?实用性分析

PingCode

开源 项目管理 项目管理软件

PDF Checkpoint for mac(PDF自动化批处理工具)v1.9.20激活版

影影绰绰一往直前

BatchOutput PDF for Mac(PDF文件批量打印软件)v3.1.3激活版下载

影影绰绰一往直前

StarRocks 生成列:百倍提速半结构化数据分析

StarRocks

数据库 StarRocks 半结构化数据分析

手机崩溃日志的查找与分析

雪奈椰子

Mac无损音乐播放器 Audirvana中文激活版下载

iMac小白

阿里云容器服务助力万兴科技 AIGC 应用加速

阿里巴巴云原生

阿里云 云原生 容器服务

Premiere Pro 2024 for Mac(PR 2024视频编辑软件)v24.1中文激活版

iMac小白

【论文解读】用于代码处理的语言模型综述

合合技术团队

代码 自然语言模型 大语言模型 文献综述

VideoProc Converter 4K for mac(一站式视频处理软件)v6.3中文免激活版

影影绰绰一往直前

万界星空科技注塑行业生产管理MES系统管理

万界星空科技

mes 万界星空科技 注塑制造业 注塑MES 注塑生产管理系统

FontLab for Mac(Mac字体编辑器)v8.3.0.8766直装激活版

影影绰绰一往直前

百度搜索Push个性化:新的突破

百度Geek说

推荐算法 百度搜索 搜索push

网站被大量cc攻击导致打不开怎么解决

德迅云安全杨德俊

HTTP cc

揭秘看不见人的“黑灯工厂”

AIRIOT

物联网平台 智慧工厂 智慧系统

为什么数字人和真人一模一样?

青否数字人

Tower for Mac(强大的Git客户端)v10.3注册激活版

影影绰绰一往直前

泛互联网行业A/B测试全解析:产品优化的创新之道

字节跳动数据平台

A/B 测试

连代码都没写就敢要融资:被ChatGPT带火的向量数据库,带来了一大波造富神话_AI&大模型_Tina_InfoQ精选文章