亮网络解锁器,解锁网络数据的无限可能 了解详情
写点什么

搭起 AI 和 DB 之间“桥梁”!阿里云开源新技术:将 AI 算法“一键部署”进数据库

  • 2023-12-21
    北京
  • 本文字数:1563 字

    阅读完需:约 5 分钟

大小:788.42K时长:04:29
搭起AI和DB之间“桥梁”!阿里云开源新技术:将AI算法“一键部署”进数据库

12 月 20 日,数据库国际顶会 VLDB2024 公布新一批论文,阿里云旨在实现将 AI 算法在数据库“一键部署”的 PilotScope 中间件相关论文成功入围。同日,阿里云宣布将 PilotScope 全部技术免费开源。

 

开源地址:https://github.com/alibaba/pilotscope

在 AI 和 DB 之间“搭桥”

 

AI 和数据库的结合在业内已经探索了很长一段时间,其中 AI for DB 是利用 AI 技术替换数据库里的某些功能,使其性能得到提升。

 

这个方案需要依赖深度学习或者说大模型。但难点在于,AI 开发和数据库开发基本是两拨人,数据库特别复杂,AI 开发人员很难梳理清楚其中的结构,得到嵌入效果的同时还要保证数据库的稳定性。同时,AI 方法非常多样,数据库底层架构也不尽相同,这导致嵌入的模式、交互需求、具体底层实现方式都各不相同,如果做定制化就会带来很大的时间成本,不利于大规模应用。

 

“AI 做了很多,DB 做了很多,但中间的桥梁没有人干,这个桥是不通的。我们现在做的事情就是要把这个桥搭建起来。”PilotScope 项目负责人朱鎔说道。



根据朱鎔的介绍,PilotScope 屏蔽不同数据库异构的细节,提供了抽象的、可对 AI 调用的一整套接口。PilotScope 把数据库交互需求及嵌入过程,抽象成了一个个的接口,将最难的底层细节开发部分屏蔽掉,用户可以直接使用,AI 工程师不用关注数据库的细节。

 

理论上,用户只要支持这个接口,同一个 AI 方法可以支持各种数据库,包括阿里云、微软、AWS 以及 PostgreSQL 等数据库,开发者可以用一个方法、写一次代码就支持所有类型数据库在上面的运行。接口还可以不断扩展,支持不同 AI 方法的需求,同时通过开源的方式来增加支持 AI 算法的多样性。

 

另外,PilotScope 对 AI 算法的嵌入做了最小的扰动和侵入,不对系统的稳定性造成影响。用户不开启 PilotScope 时可以直接忽略它的存在,而使用 PilotScope 并把某些 AI 算法进行了相应运行后,PilotScope 的检测机制会处理和限定模型的异常输出,对于不正常的结果会直接打断,让数据用原来的模块运行。



 据了解,当前 PilotScope 针对参数调优、索引推荐、基数估计、查询优化等数据库主流任务,预置了 10 多种 AI 算法,并完成 PostgreSQL 和 Spark 等两大主流开源数据库的适配打样。根据团队的实验数据,使用 PilotScope 将 AI 算法嵌入数据库,较传统“硬植入”方法,查询优化等任务提速 1-2 倍不等,并且 PilotScope 本身对部署产生的额外代价基本可忽略。

十多人,用了两年做研发

 

PilotScope 项目是一个深度交叉的领域:要有懂算法的研发人员明确算法具体需求,也要有懂系统的研发将需求真正抽象成系统化设计;除了要有懂 AI 的人,还要有懂数据库的人,了解数据库架构、嵌入模式、与数据库的交互等;在系统设计的人员抽象出系统模式后,还需要开发人员用实际的代码把构思实现出来;AI for DB 是学界想做的算法探索研究,业界想做一些实际落地,两者的综合平衡对满足开源社区是比较重要的。

 

从上可以看出,这样的研发难度是不小的。朱鎔表示,从有做 PilotScope 的想法开始到今天正式搞出来,十几个人的团队差不多用了两年时间才基本完成。

 

做 PilotScope 的想法来源于阿里云团队在做 AI for DB 中遇到了测试、部署、落地等各种痛点问题。2021 年夏季之前,团队是点对点地解决,然后发现通用性差、成本高,很难持续下去。之后,团队开始构思这样的一个中间件,在与业务部门沟通、研究了学界最新进展后,才将最终需求确认下来,包括要支持哪些主流方法、支持到什么程度等。

 

整个 2022 年,团队一直在解决“两端解耦、让桥顺畅”的难题,到了 9 月份左右才开始做真正的系统研发。考虑到两个数据库的适配,团队要做很多细小的修改、打磨、迭代,陆陆续续到今年八九月份才算基本成熟。

 

据悉,PilotScope 目前已在阿里云内部展开试点应用。朱鎔表示,未来将做一些产业化部署,希望通过这个工具,把 AI for DB 的算法真正大规模的地应用到数据库系统里,提升数据库系统的效率和效果。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-12-21 11:169262

评论

发布
暂无评论

Helio 升级为 LISTA DAO,开启多链时代新篇章并宣布积分空投计划

股市老人

qemu调试kernel启动(从第一行汇编开始)

无人知晓

qemu kernel 内核调试 linux

闲聊ArrayList的那些事儿

是月月啊2023

Java 面试题

面试官:线程崩了,会导致 JVM 崩溃吗?

是月月啊2023

JVM;

开发体育竞赛直播系统平台:创新与活力的释放,引爆比赛激情

软件开发-梦幻运营部

qemu单步调试arm64 linux kernel

无人知晓

qemu 内核调试 linux

灵活弹性、成本优化:深度解析华为云耀云服务器L实例在企业数字化转型中的全面优势

轶天下事

ADA算力DAPP挖矿系统开发丨详情

l8l259l3365

在大数据量中Spark数据倾斜问题定位排查及解决

五分钟学大数据

大数据 spark 年度总结 数据倾斜

飞跃时代的翅膀,华为云这款服务器可助力企业数字化升级的强大能力

轶天下事

我与Stable Diffusion的“缘”

AI 大模型训练 Stable Diffustion 大模型推理

广西汽车集团携手时习知打造数字化学习平台,加速人才转型

轶天下事

qemu搭建arm64 linux kernel调试环境

无人知晓

一款LED大灯泡设计方案

智趣匠

2023年大数据个人技术能力提升心得体会

大数据技术指南

大数据 技术总结

Helio 升级为 LISTA DAO,开启多链时代新篇章并宣布积分空投计划

EOSdreamer111

通义家族大模型总结

多啦A梦

大模型

Dockerfile和搭建 Docker 私有仓库:让容器化部署变得更简单

百度搜索:蓝易云

Docker Linux 运维 Dockerfile 云服务器

手撸了一个API网关,代码已上传,自取~

是月月啊2023

Java

Java http 接口请求详解。

百度搜索:蓝易云

Java Linux HTTP 云服务器

2023-12-09:用go语言,给你两个整数数组 arr1 和 arr2, 返回使 arr1 严格递增所需要的最小「操作」数(可能为 0)。 每一步「操作」中,你可以分别从 arr1 和 arr2

福大大架构师每日一题

福大大架构师每日一题

qemu 单步调试linux driver

无人知晓

qemu driver 单步调试

qemu + vscode图形化调试linux kernel

无人知晓

Linux Kenel qemu 内核调试 linux

数字时代智选,华为云耀云服务器L实例:数据分析背后的智能小程序开发解决方案

轶天下事

24 | 二叉树基础(下):有了如此高效的散列表,为什么还需要二叉树?

鲁米

25 | 红黑树(上):为什么工程中都用红黑树这种二叉树

鲁米

app开发

Geek_8da502

SQL PRIMARY KEY 约束- 唯一标识表中记录的关键约束

小万哥

MySQL 数据库 sql 程序员 后端开发

SpringSecurity全限验证实战!

是月月啊2023

Java 面试题

游戏开发不再难:华为这款服务器为小程序与PC游戏提供强大支持

轶天下事

一种在数据量比较大、字段变化频繁场景下的大数据架构设计方案

编程攻略

大数据 架构设计

搭起AI和DB之间“桥梁”!阿里云开源新技术:将AI算法“一键部署”进数据库_大数据_褚杏娟_InfoQ精选文章