50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

搭起 AI 和 DB 之间“桥梁”!阿里云开源新技术:将 AI 算法“一键部署”进数据库

  • 2023-12-21
    北京
  • 本文字数:1563 字

    阅读完需:约 5 分钟

大小:788.42K时长:04:29
搭起AI和DB之间“桥梁”!阿里云开源新技术:将AI算法“一键部署”进数据库

12 月 20 日,数据库国际顶会 VLDB2024 公布新一批论文,阿里云旨在实现将 AI 算法在数据库“一键部署”的 PilotScope 中间件相关论文成功入围。同日,阿里云宣布将 PilotScope 全部技术免费开源。

 

开源地址:https://github.com/alibaba/pilotscope

在 AI 和 DB 之间“搭桥”

 

AI 和数据库的结合在业内已经探索了很长一段时间,其中 AI for DB 是利用 AI 技术替换数据库里的某些功能,使其性能得到提升。

 

这个方案需要依赖深度学习或者说大模型。但难点在于,AI 开发和数据库开发基本是两拨人,数据库特别复杂,AI 开发人员很难梳理清楚其中的结构,得到嵌入效果的同时还要保证数据库的稳定性。同时,AI 方法非常多样,数据库底层架构也不尽相同,这导致嵌入的模式、交互需求、具体底层实现方式都各不相同,如果做定制化就会带来很大的时间成本,不利于大规模应用。

 

“AI 做了很多,DB 做了很多,但中间的桥梁没有人干,这个桥是不通的。我们现在做的事情就是要把这个桥搭建起来。”PilotScope 项目负责人朱鎔说道。



根据朱鎔的介绍,PilotScope 屏蔽不同数据库异构的细节,提供了抽象的、可对 AI 调用的一整套接口。PilotScope 把数据库交互需求及嵌入过程,抽象成了一个个的接口,将最难的底层细节开发部分屏蔽掉,用户可以直接使用,AI 工程师不用关注数据库的细节。

 

理论上,用户只要支持这个接口,同一个 AI 方法可以支持各种数据库,包括阿里云、微软、AWS 以及 PostgreSQL 等数据库,开发者可以用一个方法、写一次代码就支持所有类型数据库在上面的运行。接口还可以不断扩展,支持不同 AI 方法的需求,同时通过开源的方式来增加支持 AI 算法的多样性。

 

另外,PilotScope 对 AI 算法的嵌入做了最小的扰动和侵入,不对系统的稳定性造成影响。用户不开启 PilotScope 时可以直接忽略它的存在,而使用 PilotScope 并把某些 AI 算法进行了相应运行后,PilotScope 的检测机制会处理和限定模型的异常输出,对于不正常的结果会直接打断,让数据用原来的模块运行。



 据了解,当前 PilotScope 针对参数调优、索引推荐、基数估计、查询优化等数据库主流任务,预置了 10 多种 AI 算法,并完成 PostgreSQL 和 Spark 等两大主流开源数据库的适配打样。根据团队的实验数据,使用 PilotScope 将 AI 算法嵌入数据库,较传统“硬植入”方法,查询优化等任务提速 1-2 倍不等,并且 PilotScope 本身对部署产生的额外代价基本可忽略。

十多人,用了两年做研发

 

PilotScope 项目是一个深度交叉的领域:要有懂算法的研发人员明确算法具体需求,也要有懂系统的研发将需求真正抽象成系统化设计;除了要有懂 AI 的人,还要有懂数据库的人,了解数据库架构、嵌入模式、与数据库的交互等;在系统设计的人员抽象出系统模式后,还需要开发人员用实际的代码把构思实现出来;AI for DB 是学界想做的算法探索研究,业界想做一些实际落地,两者的综合平衡对满足开源社区是比较重要的。

 

从上可以看出,这样的研发难度是不小的。朱鎔表示,从有做 PilotScope 的想法开始到今天正式搞出来,十几个人的团队差不多用了两年时间才基本完成。

 

做 PilotScope 的想法来源于阿里云团队在做 AI for DB 中遇到了测试、部署、落地等各种痛点问题。2021 年夏季之前,团队是点对点地解决,然后发现通用性差、成本高,很难持续下去。之后,团队开始构思这样的一个中间件,在与业务部门沟通、研究了学界最新进展后,才将最终需求确认下来,包括要支持哪些主流方法、支持到什么程度等。

 

整个 2022 年,团队一直在解决“两端解耦、让桥顺畅”的难题,到了 9 月份左右才开始做真正的系统研发。考虑到两个数据库的适配,团队要做很多细小的修改、打磨、迭代,陆陆续续到今年八九月份才算基本成熟。

 

据悉,PilotScope 目前已在阿里云内部展开试点应用。朱鎔表示,未来将做一些产业化部署,希望通过这个工具,把 AI for DB 的算法真正大规模的地应用到数据库系统里,提升数据库系统的效率和效果。

2023-12-21 11:1610605

评论

发布
暂无评论
发现更多内容

分布式事务的模式

陈一之

架构 分布式 分布式事务 事务

重塑家庭观影标准,海信激光电视探索X1斩获艾普兰奖

新消费日报

重识 APO:DeepSeek 掀起可观性领域变革 | 龙蜥生态

OpenAnolis小助手

AI 系统运维 apo 龙蜥生态 DeepSeek

【Redis技术进阶之路】「原理分析系列开篇」探索事件驱动枚型与数据特久化原理实现(数据持久化的实现AOF)

码界西柚

数据库 redis redis持久化 aof Redis底层原理

Karmada v1.13 版本发布!新增应用优先级调度能力

华为云原生团队

云计算 容器 云原生

OpenAI 发布新一代 STT/TTS 模型,10 行代码构建 Voice Agent;声网推出对话式 AI 开发套件丨日报

声网

TiCDC 新架构 v9.0.0 使用实践

TiDB 社区干货传送门

TiCDC新架构

龙蜥 2024 年度“最佳合作伙伴”揭晓!申威、AMD 等多家新晋贡献厂商实力登榜

OpenAnolis小助手

操作系统 龙蜥社区 OpenAnolis 龙蜥社区年度优秀贡献者

保姆级离线 TiDB V8+ 解释

TiDB 社区干货传送门

8.x 实践

TiDB × AI :DeepSeek 时代你需要什么样的数据基座

PingCAP

AI TiDB DeepSeek

解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”

合合技术团队

人工智能 #算法 #大数据 图表解析

人形机器人发展路线之争:“大脑”优先,还是“运动”优先?

机器人头条

科技 大模型 人形机器人 具身智能

「战友」变「对手」:Pump.fun 与 Raydium 正式打响争夺 Solana Memecoin 市场的战役

TechubNews

CST软件如何用天线远场计算Group delay延时

思茂信息

cst CST软件 CST Studio Suite

【2月13日 - 3月14日】TiCDC 新架构试用通道正式开启,全新升级,抢先体验,多重参与奖励等你拿!

TiDB 社区干货传送门

用户说 | 零基础用通义灵码 AI 程序员开发个人笔记网站

阿里云云效

阿里云 云原生 通义灵码

龙蜥社区第六届理事大会成功举行,共话技术创新与生态合作

OpenAnolis小助手

开源 龙蜥社区 OpenAnolis 龙蜥社区理事大会

用HAI+AI助手,不懂代码也能自己做页游

穿过生命散发芬芳

HAI应用服务器 腾讯云 AI 代码助手

Netty源码—Reactor线程模型一

不在线第一只蜗牛

Java 算法 前端

DeepSeek&东信营赛洞见:“深度思考”模式重构AI营销新范式

东信营销科技

面试官:谈谈你对Reactor模型的理解?

王磊

用户说 | 零基础用通义灵码 AI 程序员开发个人笔记网站

阿里巴巴云原生

阿里云 云原生 通义灵码

连接与效率的艺术:解码ToB 移动端协同产品的用户体验设计奥秘

inBuilder低代码平台

UX 移动端 体验设计

用 tcpdump 分析 Java 客户端的 prepare 行为

TiDB 社区干货传送门

性能调优 故障排查/诊断

SysOM 可观测体系建设(一):万字长文解读低开销、高精度性能剖析工具livetrace

OpenAnolis小助手

AI 可观测性 SysOM 龙蜥系统运维联盟 livetrace

高性能存储SIG月度动态:erofs快照器合入containerd社区,ANCK支持virtio-blk直通

OpenAnolis小助手

操作系统 高性能存储 龙蜥社区 龙蜥社区SIG EROFS

下一代产品的“双向奔赴”  鸿蒙版百度网盘发布多项领先AI能力

极客天地

如何选择合适的日志管理系统?功能对比与应用场景解析

运维有小邓

日志管理系统

高性能网络SIG双月动态:加速 SMC eBPF 透明替换特性上游化进程,并与上游深度研讨新特性

OpenAnolis小助手

操作系统 龙蜥社区 smc 龙蜥SIG月报

荣耀时刻!第二届开放原子大赛-OS Copilot 学习赛获奖名单新鲜出炉

OpenAnolis小助手

开源 操作系统 龙蜥社区 龙蜥赛事

搭起AI和DB之间“桥梁”!阿里云开源新技术:将AI算法“一键部署”进数据库_大数据_褚杏娟_InfoQ精选文章