Data+AI时代,如何打造下一代数智平台? 了解详情
写点什么

MariaDB LTS 年度发布集成了向量搜索

  • 2025-06-21
    北京
  • 本文字数:1548 字

    阅读完需:约 5 分钟

大小:797.39K时长:04:32
MariaDB LTS年度发布集成了向量搜索

MariaDB 最近发布了MariaDB Community Server 11.8,作为 2025 年的年度长期支持(LTS)版本,现已普遍可用。新版本引入了集成的向量搜索功能,适用于 AI 驱动和相似性搜索应用程序,增强了 JSON 功能,并提供了用于数据历史和审计的时态表。

 

新的向量数据类型允许更复杂的数据存储和检索,特别适用于机器学习和数据科学应用,在这些应用中数据的向量表示很常见。虽然在早期版本中已经添加了向量支持,如之前在InfoQ上报道的,这是第一个允许开发人员存储嵌入并与传统关系数据一起查询的 LTS 版本。MariaDB 基金会的首席执行官Kaj Arnö写道:

 

这无疑是 MariaDB 11.8 LTS 最显著的亮点:全面支持 MariaDB Vector(......)向量搜索能力对于 RAG 和其他现代 AI 和机器学习应用至关重要,可以在大型数据集上进行相似性搜索。MariaDB Vector 现在以 LTS 形式得到全面支持,为你提供未来几年的稳定性和可预测性。

 

MariaDB Vector包括一个原生的向量数据类型,用于最近邻搜索的索引,用于计算向量相似度的函数(VEC_DISTANCE_EUCLIDEAN、VEC_DISTANCE_COSINE 和 VEC_DISTANCE),以及用于将二进制向量转换为其文本表示和返回的函数(VEC_FromText 和 VEC_ToText)。此外,该特性为 Intel(AVX2 和 AVX512)、ARM 和 IBM Power10 CPU 提供了 SIMD 硬件优化。

 

新功能允许针对流行的用例在高维数据上进行相似性搜索,如语义搜索、推荐引擎和异常检测的用例。今年早些时候,数据库专家Mark Callaghan进行了基准测试,比较了MariaDB、Qdrant和Postgres(pgvector)在大型数据集上的表现。他得出结论:

 

如果你已经在运行 MariaDB 或 Postgres 了,那么我建议你也使用它们进行向量索引(...…)我有偏见。我对部署一个新的 DBMS 来支持仅一种数据类型(向量)持怀疑态度,除非你在生产环境中没有其他 DBMS,或者你的生产 DBMS 不支持向量索引。

 

Vettabase 的创始人Federico Razzoli在这一版本进行了深入的审查,他强调了一些他最喜欢的改进,包括并行转储、PARSEC 身份验证和新的 SQL 语法,以及遗漏的内容,如目录。关于向量搜索,他写道:

 

根据 Mark Callaghan 的基准测试,MariaDB 向量比 pgvector 更快。但这里有一些注意事项。如果我们只关心性能,最大的问题是 MariaDB 显然决定永不使用 SQL 以外的语言来实现存储过程。这意味着嵌入过程必须发生在 MariaDB 之外,通常是在另一个服务器上,即使原始数据在 MariaDB 中。使用 PostgreSQL,你可以在 Postgres 内完成所有操作。

 

向量搜索是 MariaDB 版本的主要功能,但不是唯一的功能:像其他开源关系数据库一样,MariaDB 现在已经将 Unicode 作为默认字符集,以使其完全兼容当今的多语言和全球应用,并将时间戳范围从2038年扩展到2106年。Arnö写道:

 

像大多数开源项目一样,我们已经解决了著名的 2038 年问题。但与许多其他项目不同,MariaDB 不需要任何数据转换就可以实现了这一点——前提是你没有使用系统版本的表。这意味着在时间戳溢出时,现有数据保持不变,同时可以获得 80 年的缓期。

 

该版本改进了对数据历史记录和审计的时态表的支持:维护数据修改的完整历史有助于时间点恢复场景、合规性和安全性。MariaDB plc 的产品经理Ralf Gebhardt写道

 

时态表最初在 MariaDB 10.3 中引入,现在有了一些增强,它可以自动管理数据的历史记录,并简化了需要沿袭数据的应用程序的开发和维护。

 

根据文档,可以从 MariaDB 11.4(之前的 LTS)或任何旧版本升级到 MariaDB 11.8,回溯到 MariaDB Server 10.0 或更早的版本,包括 MySQL Server 的大多数版本。MariaDB 发布了另一篇文章,介绍如何使用MariaDB Vector Store框架构建 AI 应用程序。

 

主要的云服务提供商尚未在他们的托管服务上支持最新的 GA 版本,AWS 目前只在数据库预览环境中支持 11.8。

 

MariaDB 11.8 在 GPLv2 许可下发布,可在GitHub上获得。

 

原文链接:

https://www.infoq.com/news/2025/06/mariadb-vector-search/

2025-06-21 08:001

评论

发布
暂无评论

数据链DNA:可观测助力云原生时代服务可达

博睿数据

原来ReadWriteLock也能开发高性能缓存,看完我也能和面试官好好聊聊了!

冰河

Java 并发编程 多线程 高并发 异步编程

浅析“关于区块链解决资本主义问题还是社会主义问题”的对与错

CECBC

生态和场景一站式集成?来看看小程序的“共享主义”

蚂蚁集团移动开发平台 mPaaS

小程序 支付宝 移动开发 生态 mPaaS

单机12万QPS——FunTester复仇记

FunTester

性能测试 接口测试 测试框架 压力测试 测试开发

洗清杂念 辟除妄见 归于自然|靠谱点评

无量靠谱

博睿数据把脉“体验经济”,以“上帝”视角解决业务运营挑战

博睿数据

博睿作为AIOps代表厂商入选《2021年中国ICT技术成熟度曲线报告》

博睿数据

为什么在线自习室这么受年轻人的追捧?

anyRTC开发者

音视频 WebRTC 在线教育 在线自习室 实时直播

ONES Performance 研发效能管理解决方案

万事ONES

研发效能 解决方案 ONES

“区块链+物联网”的发展现状和应用案例

CECBC

百度智能云在视频云解决方案市场位居前三!

百度大脑

云计算 云服务 IDC

JAVA的多线程与高并发

愚者

Java 多线程

拼多多 +蚂蚁金服 +头条(已拿offer),面试真题分享!

Java 程序员 架构 面试 计算机

博睿数据携数据链DNA理念亮相山东 助力金融行业数字化转型

博睿数据

模块3.架构设计

Geek_ywh40v

有了 NGINX 和 Kong,为什么还需要 Apache APISIX?

API7.ai 技术团队

网关 kong ngnix APISIX

三分钟评估 你的CMDB是“磐石”还是“豆腐渣”

鹿小U

DevOps 运维自动化 CMDB IT运维

声网 X Yalla:面对面不如线上见,中东年轻人最偏爱的语聊房是怎样“炼”成的?

声网

人工智能 产品方案

网络攻防学习笔记 Day87

穿过生命散发芬芳

网络攻防 7月日更

Spring Boot基础学习

偏执

面试 后端 spring Boot Starter

快手技术大咖分享“领域数据建设”实践经验

Geek老T

大数据 数据治理

抖音快手获客系统开发公司

体验设计也可以很简单。只要释放出一些善意就可以了。

石云升

用户体验 7月日更 体验设计

真的太刺激了,蚂蚁金服难忘的四面经历:Linxu+数据库+数据结构+算法+计算机网络

Java 程序员 架构 面试 计算机

首张区块链《代理出口货物证明》 区块链技术首次应用于出口退税

CECBC

fil是怎么挖的?Fil矿机有什么配置要求?

区块链 IPFS fil fil矿机 fil矿机配置

Java版人脸检测详解下篇:开发java应用并做成docker镜像同步

编程菌

Java 编程 程序员 技术 技术栈

模块三外包学生管理系统架构文档

kitten

架构师训练 模块三

【架构设计模块三】:学生信息管理系统的架构文档

Ryoma

最详细的多线程讲解!

愚者

Java 多线程

MariaDB LTS年度发布集成了向量搜索_大数据_Renato Losio_InfoQ精选文章