写点什么

增强 AI 能力:谷歌云在托管数据库中集成向量搜索

作者:Renato Losio

  • 2023-07-15
    北京
  • 本文字数:1127 字

    阅读完需:约 4 分钟

增强AI能力:谷歌云在托管数据库中集成向量搜索

谷歌云最近在 Cloud SQL for PostgreSQL 和 AlloyDB for PostgreSQL 中增加了对 pgvector 的支持。这个扩展为托管数据库带来了向量搜索操作,允许开发人员存储大型语言模型(LLM)生成的向量嵌入并执行相似性搜索。


Cloud SQL 和 AlloyDB 现在可以与 Vertex AI 上的生成性 AI 服务配对,帮助创建能够感知应用程序和用户状态的 AI 应用程序。谷歌高级产品经理 Sandhya Ghai 和产品经理 Bala Narasimhan 解释说:


向量嵌入是一种数值表示,通常用于将复杂的用户生成内容(如文本、音频和视频)转换为易于存储、操作和索引的形式。这些表示由嵌入模型生成,如果两个内容在语义上相似,它们各自的嵌入就会在嵌入向量空间中彼此相邻。然后,向量嵌入会被索引,被用于基于相似性进行有效的数据过滤。


例如,开发人员可以使用 Vertex AI 的预训练模型在文本和图像之间生成嵌入,并将它们存储并索引到数据库中,简化查找相似记录的过程。


用户现在可以使用 CREATE EXTENSION 命令在现有的数据库中安装 pgvector 扩展:


postgres=> CREATE EXTENSION IF NOT EXISTS vector;CREATE EXTENSION
postgres=> CREATE TABLE embeddings( id INTEGER, embedding vector(3));CREATE TABLE
postgres=> INSERT INTO embeddings VALUES (1, '[1, 0, -1]'), (2, '[1, 1, 1]'), (3, '[1, 1, 50]');INSERT 0 3
复制代码


来源:https://cloud.google.com/blog/products/databases/using-pgvector-llms-and-langchain-with-google-cloud-databases


正如 Ghai 和 Narasimhan 所解释的那样,这一新功能还可以帮助开发人员利用预训练的 LLM:


我们需要了解的是,LLM 没有状态的概念……嵌入允许你将大型上下文(如文档或历史聊天记录)存储在数据库中,并过滤它们,以便查找最相关的信息。然后,你可以将最相关的聊天历史记录或文档片段输入模型来模拟长期记忆和业务特定知识。


谷歌云发布了一个 Colab Notebook 和一个视频,用 pgvector、开源框架 LangChain 和 LLM 构建 AI 驱动的应用程序。谷歌高级软件工程师 Saket Saurabh 演示了如何在示例 Python 应用程序中添加生成式 AI 功能,他写道:


pgvector 扩展还引入了用于对向量执行相似性匹配的新运算符,你可以用它查找语义上相似的向量。这样的运算符有两个:

‘<->’:返回两个向量之间的欧几里得距离……

‘<=>’:返回两个向量之间的余弦距离


在过去的几个月中,谷歌云并不是唯一一个瞄准向量数据库的云供应商,Amazon RDS for PostgreSQL 也支持 pgvector 扩展,微软还展示了如何将 Azure Data Explorer(ADX)作为向量数据库,并讨论了几种连接到向量数据库的连接器。


原文链接:


https://www.infoq.com/news/2023/07/gcp-databases-vector-search/

2023-07-15 08:003296

评论

发布
暂无评论
发现更多内容

2023 最新版 Java 面试八股文大全 PDF 版限时分享,含 700 道高频面试题

三十而立

iMazing软件最新版有哪些新功能?

茶色酒

imazing

各行业常见的业务指标汇总(数据分析常用数据指标)

Data 探险实验室

数据分析 数据分析师 数据指标 指标中台; 数据分析 指标洞察

使用 Kubectl Patch 命令更新资源

Se7en

云原生

TypeScript Module

程序员海军

三周年连更

世界读书日|华为阅读联合40余家伙伴推出精品书单

最新动态

CDR2023最新中文版下载安装详细教程

茶色酒

cdr2023

CorelDRAW Graphics Suite2023最新中文版下载

茶色酒

cdr2023

Cloud Kernel SIG月度动态:发布 Anolis 8.8 镜像、kABI 社区共建流程

OpenAnolis小助手

镜像 龙蜥社区 sig kernel 月报

新手如何学好Zbrush3D建模?

Finovy Cloud

3D软件

算法刷题-移除元素、分数到小数、整数转罗马数字

共饮一杯无

数据结构 算法 三周年连更

Tuxera NTFS2024免费版NTFS磁盘读写软件

茶色酒

Tuxera NTFS2024

【Python实战】Python对中国500强排行榜数据进行可视化分析

BROKEN

三周年连更

ChatGPT辅助编写自动化测试

QE_LAB

单元测试 自动化测试 接口测试 测试技术 ChatGPT

【已结束】直播预告|传统 PvE 游戏 ∕ 开房间 PvP 游戏的云原生架构升级

阿里巴巴云原生

阿里云 云原生 游戏

Django笔记十五之in查询及date日期相关过滤操作

Hunter熊

Python django 日期

百度平地起“雷”,突然爆出的QPS数据意味着什么?

脑极体

大模型

Sibelius2023免费版音乐制谱软件

茶色酒

Sibelius2023

今天,飞桨公众号六岁啦!

飞桨PaddlePaddle

飞桨PaddlePaddle

基于 Amazon SageMaker 构建细粒度情感分析应用

亚马逊云科技 (Amazon Web Services)

机器学习 Amazon SageMaker

2023年3月用户体验GX评测:国有行及股份行持续领跑,城商行及农商行农信社积极探索实践用户体验体系搭建

易观分析

金融 银行

重构这件“小”事儿 | 得物技术

得物技术

CnosDB成为首个支持sqllogictest的时序数据库,稳定性与可靠性再升级

CnosDB

数据库 开源 时序数据库 CnosDB

为什么医疗保健需要MFT来帮助保护EHR文件传输

镭速

活动回顾|微服务x容器开源开发者 Meetup 成都站回放 & PPT 下载

阿里巴巴云原生

阿里云 开源 容器 微服务 云原生

【深入浅出Spring原理及实战】「源码调试分析」深入源码探索Spring底层框架的的refresh方法所出现的问题和异常

码界西柚

spring NPE 源码剖析 4月日更 问题分析

关于容器云的三种网络设计

穿过生命散发芬芳

容器云 三周年连更

当⻉借⼒阿⾥云落地云原⽣架构转型,运维降本、效率稳定性双升

阿里巴巴云原生

阿里云 云原生 云原生架构

Docgeni 2.1 正式发布

PingCode研发中心

软件开发 Docgeni

CorelDRAW2023发布!详解七大新功能

茶色酒

CorelDraw2023

预训练对话大模型深度解读

轻口味

AI 大模型 三周年连更

增强AI能力:谷歌云在托管数据库中集成向量搜索_AI 工程化_InfoQ精选文章