2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

MariaDB LTS 年度发布集成了向量搜索

  • 2025-06-21
    北京
  • 本文字数:1548 字

    阅读完需:约 5 分钟

大小:797.39K时长:04:32
MariaDB LTS年度发布集成了向量搜索

MariaDB 最近发布了MariaDB Community Server 11.8,作为 2025 年的年度长期支持(LTS)版本,现已普遍可用。新版本引入了集成的向量搜索功能,适用于 AI 驱动和相似性搜索应用程序,增强了 JSON 功能,并提供了用于数据历史和审计的时态表。

 

新的向量数据类型允许更复杂的数据存储和检索,特别适用于机器学习和数据科学应用,在这些应用中数据的向量表示很常见。虽然在早期版本中已经添加了向量支持,如之前在InfoQ上报道的,这是第一个允许开发人员存储嵌入并与传统关系数据一起查询的 LTS 版本。MariaDB 基金会的首席执行官Kaj Arnö写道:

 

这无疑是 MariaDB 11.8 LTS 最显著的亮点:全面支持 MariaDB Vector(......)向量搜索能力对于 RAG 和其他现代 AI 和机器学习应用至关重要,可以在大型数据集上进行相似性搜索。MariaDB Vector 现在以 LTS 形式得到全面支持,为你提供未来几年的稳定性和可预测性。

 

MariaDB Vector包括一个原生的向量数据类型,用于最近邻搜索的索引,用于计算向量相似度的函数(VEC_DISTANCE_EUCLIDEAN、VEC_DISTANCE_COSINE 和 VEC_DISTANCE),以及用于将二进制向量转换为其文本表示和返回的函数(VEC_FromText 和 VEC_ToText)。此外,该特性为 Intel(AVX2 和 AVX512)、ARM 和 IBM Power10 CPU 提供了 SIMD 硬件优化。

 

新功能允许针对流行的用例在高维数据上进行相似性搜索,如语义搜索、推荐引擎和异常检测的用例。今年早些时候,数据库专家Mark Callaghan进行了基准测试,比较了MariaDB、Qdrant和Postgres(pgvector)在大型数据集上的表现。他得出结论:

 

如果你已经在运行 MariaDB 或 Postgres 了,那么我建议你也使用它们进行向量索引(...…)我有偏见。我对部署一个新的 DBMS 来支持仅一种数据类型(向量)持怀疑态度,除非你在生产环境中没有其他 DBMS,或者你的生产 DBMS 不支持向量索引。

 

Vettabase 的创始人Federico Razzoli在这一版本进行了深入的审查,他强调了一些他最喜欢的改进,包括并行转储、PARSEC 身份验证和新的 SQL 语法,以及遗漏的内容,如目录。关于向量搜索,他写道:

 

根据 Mark Callaghan 的基准测试,MariaDB 向量比 pgvector 更快。但这里有一些注意事项。如果我们只关心性能,最大的问题是 MariaDB 显然决定永不使用 SQL 以外的语言来实现存储过程。这意味着嵌入过程必须发生在 MariaDB 之外,通常是在另一个服务器上,即使原始数据在 MariaDB 中。使用 PostgreSQL,你可以在 Postgres 内完成所有操作。

 

向量搜索是 MariaDB 版本的主要功能,但不是唯一的功能:像其他开源关系数据库一样,MariaDB 现在已经将 Unicode 作为默认字符集,以使其完全兼容当今的多语言和全球应用,并将时间戳范围从2038年扩展到2106年。Arnö写道:

 

像大多数开源项目一样,我们已经解决了著名的 2038 年问题。但与许多其他项目不同,MariaDB 不需要任何数据转换就可以实现了这一点——前提是你没有使用系统版本的表。这意味着在时间戳溢出时,现有数据保持不变,同时可以获得 80 年的缓期。

 

该版本改进了对数据历史记录和审计的时态表的支持:维护数据修改的完整历史有助于时间点恢复场景、合规性和安全性。MariaDB plc 的产品经理Ralf Gebhardt写道

 

时态表最初在 MariaDB 10.3 中引入,现在有了一些增强,它可以自动管理数据的历史记录,并简化了需要沿袭数据的应用程序的开发和维护。

 

根据文档,可以从 MariaDB 11.4(之前的 LTS)或任何旧版本升级到 MariaDB 11.8,回溯到 MariaDB Server 10.0 或更早的版本,包括 MySQL Server 的大多数版本。MariaDB 发布了另一篇文章,介绍如何使用MariaDB Vector Store框架构建 AI 应用程序。

 

主要的云服务提供商尚未在他们的托管服务上支持最新的 GA 版本,AWS 目前只在数据库预览环境中支持 11.8。

 

MariaDB 11.8 在 GPLv2 许可下发布,可在GitHub上获得。

 

原文链接:

https://www.infoq.com/news/2025/06/mariadb-vector-search/

2025-06-21 08:009094

评论

发布
暂无评论

Apache-Flume的安装及简单应用

慢慢de

win10 flume 日志采集

飞桨与宸曜科技完成兼容性认证

百度大脑

认证 飞桨

百度联合研究成果登上《自然》子刊 推动人才管理大数据智能化转型

百度大脑

百度 AI

一不小心,它成为了 GitHub Alibaba Group 下 Star 最多的开源项目

阿里巴巴云原生

Java 微服务 云原生 dubbo Arthas

用AI实践继续探索2050全面数字乡村建设

百度大脑

AI

​专科出身,2年进入苏宁,5年跳槽阿里,论我是怎么快速晋升的?

码农之家

Java 程序员 互联网 面试 阿里

月薪30K以上的C/C++Linux后台服务器开发学习路线是怎样的?

赖猫

c++ Linux 后台开发 后端

终于有腾讯架构师把困扰我多年的《计算机网络原理》全部讲明白了

Java 程序员 架构 网络 计算机

三年Java程序员成功跳槽涨薪,这份《阿里巴巴金三银四Java高级面试题》给了我很大的帮助。

Java架构之路

Java 程序员 架构 面试 编程语言

Impala简介以及与Hive的异同

五分钟学大数据

4月日更 impala

Canalys发布2020 Q4中国云市场报告

百度大脑

百度 AI

CMS垃圾收集器

张sir

Java JVM 垃圾收集

三次给你讲清楚Redis之Redis是个啥

华为云开发者联盟

数据库 nosql redis hash 字符串

AI开发降本提效之道:云智一体AI开发全栈模式

百度大脑

百度 AI 飞桨

什么是 Jenkins? 运用Jenkins持续集成

码语者

DevOps jenkins

mysql事务隔离的研究

这就是编程

低代码平台想要实现复杂的业务流程,这4个条件不能少!

优秀

低代码

工作中的设计模式 —— 策略模式

程序员小航

Java 设计模式

5G 和云原生时代的技术下半场,视频化是最大最新的确定性

阿里巴巴云原生

人工智能 云原生 5G 存储 调度

跨专业?拿到阿里offer?我是如何一步一步做到的?

Java架构师迁哥

百度交易中台之订单系统架构浅析

百度Geek说

云计算 架构 云原生 后端 云服务

Linux C/C++ 服务器/后端开发/后台开发学习路线

Linux服务器开发

C/C++ Linux服务器开发 Linux后台开发 Linux后端开发

Linux后台开发面试总结

赖猫

学会 Java 数据结构,想不飘都难

学Java关注我

Java 编程 架构 程序人生 计算机

2021年金三银四最新美团、字节、阿里、腾讯Java面经,已拿offer!

Java架构之路

Java 程序员 架构 面试 编程语言

面试阿里P6,却被MySQL难倒,二战阿里,挤进天猫团队(Java岗)

Java 程序员 架构 面试

第14期师资培训火热招生中尽享国赛智能车一手资料

百度大脑

人工智能

MySQL-技术专题-锁的介绍分析

码界西柚

MySQL lock 锁机制

San介绍以及在百度APP的实践

百度开发者中心

一位阿里P8技术大牛的Java面试题总结,在GitHub上仅一天就获赞上万!

Java架构之路

Java 程序员 架构 面试 编程语言

大数据作业的工作流调度详解

大数据技术指南

大数据 4月日更

MariaDB LTS年度发布集成了向量搜索_大数据_Renato Losio_InfoQ精选文章