NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

增强 AI 能力:谷歌云在托管数据库中集成向量搜索

作者:Renato Losio

  • 2023-07-15
    北京
  • 本文字数:1127 字

    阅读完需:约 4 分钟

增强AI能力:谷歌云在托管数据库中集成向量搜索

谷歌云最近在 Cloud SQL for PostgreSQL 和 AlloyDB for PostgreSQL 中增加了对 pgvector 的支持。这个扩展为托管数据库带来了向量搜索操作,允许开发人员存储大型语言模型(LLM)生成的向量嵌入并执行相似性搜索。


Cloud SQL 和 AlloyDB 现在可以与 Vertex AI 上的生成性 AI 服务配对,帮助创建能够感知应用程序和用户状态的 AI 应用程序。谷歌高级产品经理 Sandhya Ghai 和产品经理 Bala Narasimhan 解释说:


向量嵌入是一种数值表示,通常用于将复杂的用户生成内容(如文本、音频和视频)转换为易于存储、操作和索引的形式。这些表示由嵌入模型生成,如果两个内容在语义上相似,它们各自的嵌入就会在嵌入向量空间中彼此相邻。然后,向量嵌入会被索引,被用于基于相似性进行有效的数据过滤。


例如,开发人员可以使用 Vertex AI 的预训练模型在文本和图像之间生成嵌入,并将它们存储并索引到数据库中,简化查找相似记录的过程。


用户现在可以使用 CREATE EXTENSION 命令在现有的数据库中安装 pgvector 扩展:


postgres=> CREATE EXTENSION IF NOT EXISTS vector;CREATE EXTENSION
postgres=> CREATE TABLE embeddings( id INTEGER, embedding vector(3));CREATE TABLE
postgres=> INSERT INTO embeddings VALUES (1, '[1, 0, -1]'), (2, '[1, 1, 1]'), (3, '[1, 1, 50]');INSERT 0 3
复制代码


来源:https://cloud.google.com/blog/products/databases/using-pgvector-llms-and-langchain-with-google-cloud-databases


正如 Ghai 和 Narasimhan 所解释的那样,这一新功能还可以帮助开发人员利用预训练的 LLM:


我们需要了解的是,LLM 没有状态的概念……嵌入允许你将大型上下文(如文档或历史聊天记录)存储在数据库中,并过滤它们,以便查找最相关的信息。然后,你可以将最相关的聊天历史记录或文档片段输入模型来模拟长期记忆和业务特定知识。


谷歌云发布了一个 Colab Notebook 和一个视频,用 pgvector、开源框架 LangChain 和 LLM 构建 AI 驱动的应用程序。谷歌高级软件工程师 Saket Saurabh 演示了如何在示例 Python 应用程序中添加生成式 AI 功能,他写道:


pgvector 扩展还引入了用于对向量执行相似性匹配的新运算符,你可以用它查找语义上相似的向量。这样的运算符有两个:

‘<->’:返回两个向量之间的欧几里得距离……

‘<=>’:返回两个向量之间的余弦距离


在过去的几个月中,谷歌云并不是唯一一个瞄准向量数据库的云供应商,Amazon RDS for PostgreSQL 也支持 pgvector 扩展,微软还展示了如何将 Azure Data Explorer(ADX)作为向量数据库,并讨论了几种连接到向量数据库的连接器。


原文链接:


https://www.infoq.com/news/2023/07/gcp-databases-vector-search/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-07-15 08:002595

评论

发布
暂无评论
发现更多内容

后疫情时代,华为云会议如何定义未来会议?

华为云开发者联盟

视频 会议

分配时间戳和生成水位线

小知识点

scala 大数据 flink

第四周总结

_

极客大学架构师训练营 第四周总结

面经手册 · 第13篇《除了JDK、CGLIB,还有3种类代理方式?面试又卡住!》

小傅哥

Java 字节码编程 asm 动态代理 cglib

华为丁耘,解读百尺竿头的中国5G

脑极体

极客时间 - 架构师一期 - 第四周作业

_

第四周作业 架构师一期

我们可以把Adapter精简到什么地步

mengxn

RecyclerView BetterAdapter Adapter

华为云专家带你解读文本情感分析任务

华为云开发者联盟

内容 数据 分析

区块链需与5G等技术打好“组合拳”

CECBC

区块链 5G

一个草根的日常杂碎(10月9日)

刘新吾

随笔杂谈 生活记录 社会百态

一个草根的日常杂碎(10月11日)

刘新吾

随笔杂谈 生活记录 社会百态

Guava-技术专题-Cache用法介绍

洛神灬殇

商业模式和盈利模式的思考

iHTC

商业模式 盈利模式 地摊经济

iOS Handle Refunds 处理退款 --- WWDC20(Session 10661)

iHTC

WWDC2020 wwdc iap 苹果退款 iOS退款

随想

Nydia

Underlay网络:如何立住可靠又支持大规模无收敛的“人设”

华为云开发者联盟

云服务 交换机

融合与共生之下,区块链都能“+”什么?

CECBC

区块链 大数据

JVM系列笔记 - 寄存器

朱华

JVM

正则表达式知识总结

iHTC

正则表达式

当我们在谈论跨平台的时候 ——— 我们在说什么

iHTC

跨平台

第四周 系统架构学习总结

蓝黑

极客大学架构师训练营

通俗易懂和你聊聊寄存器那些事(精美图文)

cxuan

后端 计算机 汇编

一个草根的日常杂碎(10月10日)

刘新吾

随笔杂谈 生活记录 社会百态

OpenResty 项目脚手架

铁匠

lua nginx openresty

CECBC区块链专委会副主任吴桐主讲全国社保基金数字货币讲座

CECBC

区块链 数字货币

Apple Developer 开发者账号申请&实名认证【2020】

iHTC

Apple Developer iOS Developer 苹果实名认证

JDK14性能管理工具:jmap和jhat使用介绍

程序那些事

内存泄露 JDK14 jmap jhat

华为程序员发现孩子不是自己的,怒提离婚!女方不要孩子!绿他的竟然是个酒吧混混!

程序员生活志

华为 程序员

技术解读丨分布式缓存数据库Redis大KEY问题定位及优化建议

华为云开发者联盟

云计算 华为 技术

优秀开源项目、博客、书籍整理

铁匠

收藏教程 资源汇总

你不知道的java对象序列化的秘密

程序那些事

Java java序列化 序列化的秘密

增强AI能力:谷歌云在托管数据库中集成向量搜索_AI 工程化_InfoQ精选文章