
MariaDB 最近发布了MariaDB Community Server 11.8,作为 2025 年的年度长期支持(LTS)版本,现已普遍可用。新版本引入了集成的向量搜索功能,适用于 AI 驱动和相似性搜索应用程序,增强了 JSON 功能,并提供了用于数据历史和审计的时态表。
新的向量数据类型允许更复杂的数据存储和检索,特别适用于机器学习和数据科学应用,在这些应用中数据的向量表示很常见。虽然在早期版本中已经添加了向量支持,如之前在InfoQ上报道的,这是第一个允许开发人员存储嵌入并与传统关系数据一起查询的 LTS 版本。MariaDB 基金会的首席执行官Kaj Arnö写道:
这无疑是 MariaDB 11.8 LTS 最显著的亮点:全面支持 MariaDB Vector(......)向量搜索能力对于 RAG 和其他现代 AI 和机器学习应用至关重要,可以在大型数据集上进行相似性搜索。MariaDB Vector 现在以 LTS 形式得到全面支持,为你提供未来几年的稳定性和可预测性。
MariaDB Vector包括一个原生的向量数据类型,用于最近邻搜索的索引,用于计算向量相似度的函数(VEC_DISTANCE_EUCLIDEAN、VEC_DISTANCE_COSINE 和 VEC_DISTANCE),以及用于将二进制向量转换为其文本表示和返回的函数(VEC_FromText 和 VEC_ToText)。此外,该特性为 Intel(AVX2 和 AVX512)、ARM 和 IBM Power10 CPU 提供了 SIMD 硬件优化。
新功能允许针对流行的用例在高维数据上进行相似性搜索,如语义搜索、推荐引擎和异常检测的用例。今年早些时候,数据库专家Mark Callaghan进行了基准测试,比较了MariaDB、Qdrant和Postgres(pgvector)在大型数据集上的表现。他得出结论:
如果你已经在运行 MariaDB 或 Postgres 了,那么我建议你也使用它们进行向量索引(...…)我有偏见。我对部署一个新的 DBMS 来支持仅一种数据类型(向量)持怀疑态度,除非你在生产环境中没有其他 DBMS,或者你的生产 DBMS 不支持向量索引。
Vettabase 的创始人Federico Razzoli在这一版本进行了深入的审查,他强调了一些他最喜欢的改进,包括并行转储、PARSEC 身份验证和新的 SQL 语法,以及遗漏的内容,如目录。关于向量搜索,他写道:
根据 Mark Callaghan 的基准测试,MariaDB 向量比 pgvector 更快。但这里有一些注意事项。如果我们只关心性能,最大的问题是 MariaDB 显然决定永不使用 SQL 以外的语言来实现存储过程。这意味着嵌入过程必须发生在 MariaDB 之外,通常是在另一个服务器上,即使原始数据在 MariaDB 中。使用 PostgreSQL,你可以在 Postgres 内完成所有操作。
向量搜索是 MariaDB 版本的主要功能,但不是唯一的功能:像其他开源关系数据库一样,MariaDB 现在已经将 Unicode 作为默认字符集,以使其完全兼容当今的多语言和全球应用,并将时间戳范围从2038年扩展到2106年。Arnö写道:
像大多数开源项目一样,我们已经解决了著名的 2038 年问题。但与许多其他项目不同,MariaDB 不需要任何数据转换就可以实现了这一点——前提是你没有使用系统版本的表。这意味着在时间戳溢出时,现有数据保持不变,同时可以获得 80 年的缓期。
该版本改进了对数据历史记录和审计的时态表的支持:维护数据修改的完整历史有助于时间点恢复场景、合规性和安全性。MariaDB plc 的产品经理Ralf Gebhardt写道:
时态表最初在 MariaDB 10.3 中引入,现在有了一些增强,它可以自动管理数据的历史记录,并简化了需要沿袭数据的应用程序的开发和维护。
根据文档,可以从 MariaDB 11.4(之前的 LTS)或任何旧版本升级到 MariaDB 11.8,回溯到 MariaDB Server 10.0 或更早的版本,包括 MySQL Server 的大多数版本。MariaDB 发布了另一篇文章,介绍如何使用MariaDB Vector Store框架构建 AI 应用程序。
主要的云服务提供商尚未在他们的托管服务上支持最新的 GA 版本,AWS 目前只在数据库预览环境中支持 11.8。
MariaDB 11.8 在 GPLv2 许可下发布,可在GitHub上获得。
原文链接:
评论