写点什么

大模型时代,AI 和数据库技术会碰撞出什么新火花?

  • 2024-04-02
    北京
  • 本文字数:3264 字

    阅读完需:约 11 分钟

大模型时代,AI 和数据库技术会碰撞出什么新火花?

数据库作为关键 PaaS 能力,一直顺应业务和技术发展,不停变更和创新。大模型的兴起,对数据库也有深刻的影响,包括通过大模型赋能的 SQL 改写,智能诊断,问答等一系列能力。同时数据库承担基础数据管理的作用,数据库技术如向量数据库,对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就,数据库技术在过去的一年内取得非常大的创新和发展,介绍这块关键技术的发展,相信可以帮助到感兴趣的从业人士以及观众朋友。


InfoQ 正在筹备 2024 年 6 月 14-15 日深圳举办的 ArchSummit 全球架构师峰会,我们邀请到了百度数据库产品总架构师朱洁老师来分享数据库和 AI 的发展史以及最新现状,以及百度在数据库和 AI 结合上的关键进展以及实际案例。在会议召开前,我们采访了朱洁老师,帮助读者提前了解到相关的技术落地细节。



InfoQ:您如何看待大模型时代对数据库技术创新的挑战和机遇?对数据库技术的影响主要体现在哪些方面?


朱洁: 大模型对数据库技术带来的机遇是远大于挑战的。传统数据库技术或者大数据技术处理的还是以结构化数据为主,或者要把非结构化数据先预处理成结构化数据才好处理。但事实上,非结构化数据才是最自然,体量最大的数据。大模型技术让非结构化数据有新的处理方法,放大非结构数据的价值,因此也带来了底层数据库更多的发挥空间。


大模型对数据库的影响主要可以从两个方面看,一个是 DB4AI,主要是向量数据库技术。通过向量数据库解决大模型知识更新不及时,幻觉问题,以及缺乏企业内部知识,也无法进行细粒度安全管理等问题。另一个是 AI4DB,通用大模型技术对数据库本身进行优化,主要方向包括数据库自动运维,SQL 生成,SQL 优化,智能问答等等。


总的来说,数据库和大模型肯定是相辅相成,数据库技术在大模型时代有了更大的想象空间。


InfoQ:在大模型的兴起背景下,数据库技术如何适应和应对新的数据处理需求?


朱洁: 大模型技术让非结构化数据有了新的应用空间,数据库变化比较大的是对文本等非结构化数据处理,以及未来甚至图片,视频等多模的数据。


目前这块发展很快,主要包括文本拆分,怎么 Embedding 多模数据,怎么实现多路召回,以及向量引擎通过 GPU ,以及更好数据组织模式来实现高性价比等。


InfoQ:在数据库行业的技术发展中,大模型技术与人工智能的相互作用是如何发挥作用的?


朱洁: 大模型属于人工智能领域的一个重要组成部分。现在一般说大模型是指生成式 AI 技术(GenAI)。


在数据库领域一直使用 AI 技术,传统上主要是一些预测算法,分类算法这些,解决比如运维的问题。大模型诞生之后,在代码生成,知识处理方面相比传统 AI 技术有了革命性提升,但是在一些传统系统运维,调优方面还是传统算法实现更简单,效率更高。


因此大模型技术更多的是在原来的技术的基础上更深入的解决原来不好解决的代码生成,知识管理等。对原有技术是一个非常大的补充,提升和扩展。


InfoQ:您能分享一些数据库和人工智能领域的创新案例,特别是在大模型时代的实际应用?


朱洁: 这块的技术发展很快,各个厂家都在进行相应的尝试和布局。当前比较创新的数据库和大模型结合的案例和应用有:


  • 智能问答:通过大模型技术解决数据库运维问题,DBA 值班等。

  • 代码生成 & 翻译:自然语言到 SQL(NL2SQL),或者把一种 SQL 翻译成另外一种,典型的 Oracle 翻译成 MySQL 之类。

  • SQL 优化:改写、注释、纠错、解释,补全

  • 智能问数:自然语言询问,内部通过大模型转成 SQL,查询出结果,然后大模型再总结以报表,报告形式展示出来。


InfoQ:作为百度智能云数据库产品总架构师,您如何看待数据库和人工智能的结合,在实际业务中取得的关键进展?


朱洁: 首先我们的大模型在业界有领先优势,其次是百度智能云在这方面布局很早,也很全。因此我们目前在这块很有竞争力。我们介绍几个最新的关键的成果:


  • 发布了 VectorDB 1.0,向量数据库是企业不可或缺的知识库核心组件,它针对传统知识库问答系统遇到的性能瓶颈、维护挑战及规模限制等问题提供了有力解决方案。全新发布的百度向量数据库 VectorDB 1.0,不仅集成了全面的运维控制和安全防护能力,还兼容了千帆、LangChain 等主流生态系统,能够帮助企业轻松管理数以千万计的文档知识,最大支持百亿向量存储规模以及毫秒级的向量检索速度。同时,相比同类型开源产品,VectorDB 1.0 性能最高提升 10 倍。

  • 发布了数据库智能驾驶舱(Database Smart Cockpit,DBSC),这个服务是利用大模型技术解决数据库运维,安全,智能问答的能力。通过内置的百度文心大模型能力,再加上百度积累的数据库运维知识库等,帮助用户回答云原生数据库 GaiaDB、MySQL、Redis 等数据库产品的各种使用场景复杂问题,以及显著降低异常问题定位时间,以及提升 SQL 优化效率等。目前这个服务在百度内部已经成功帮助 DBA 团队降低超过 50% 的运维工作量。


InfoQ:对于百度在数据库和人工智能结合上的关键进展,您认为最有意义的是什么?


朱洁: 对外部而言,我们致力于为客户提供强大、高性能、稳定可靠的数据库产品,首先通过大模型技术对数据库技术的改造和升级也能帮助客户降低数据库的使用门槛和成本。其次我们提供更好的解决方案和能力套件,帮助客户更快地开发基于大模型的 AI 原生应用,帮助客户更快地应用上 AI 能力,创造新的业务机会。


对内部而言,百度具备优秀的大模型技术和产品,同时也需要优秀的各类配套组件,共同支撑百度智能云构建强大的 AI 原生应用产品和解决方案。数据库技术的努力突破,才能更好的支撑好百度的大模型战略。


InfoQ:在 AI 与数据库的结合中,百度是否有一些特定的技术路径或策略?


朱洁:AI 技术和数据库技术都在快速发展过程中,我们几个主要的策略有:


  • 坚持技术和场景结合的原则:技术只有和场景深度结合,才容易成熟,以及真正解决问题。因此我们对大模型的应用并不追求尝鲜,一定是选择可以和场景深度结合,各方面条件成熟,以及内部深度使用之后再给到我们的客户。

  • 坚持技术的普惠的原则:普惠核心意味着要让更多用户,更多场景可以使用。对数据库技术来说主要体现在两点:首先我们在设计的时候就会基于通用硬件去设计,云上,云下都可以部署,大客户,小客户都能用。这个体现在我们的 VectorDB,DBSC,GaiaDB 等多个产品中。另外一个核心是坚持起步门槛低,为了让更多用户用到,我们 VectorDB,DBSC 目前都提供了免费版本,让用户可以直接使用。也欢迎大家到百度智能云上选择相应的免费版本,体验最新大模型加持的能力。

  • 坚持开放的原则:除了我们自研之外,我们也非常欢迎更多的第三方厂商和我们一起共建,或者集成我们的产品。


InfoQ:您对 AIGC 与数据库结合的未来发展有何展望?


朱洁: 这个领域还在一个刚起步和快速发展阶段。我觉得下一个阶段的发展,核心有两点:


  • 已有产品的成熟,随着技术发展,使用者越多,会更催熟当前的产品,更深度的解决客户实际场景问题。

  • 多模态支持:当前技术处理文本为主,未来多模态的能力会越来越强,也会在这个基础上诞生更多的应用。


InfoQ:在演讲中提到的数据库技术的创新和发展对从业人员和观众朋友意味着什么?ArchSummit 听众能从您的这次演讲中可以获得哪些实际的收益和启发?


朱洁: 数据库作为关键 PaaS 能力,一直顺应业务和技术发展,不停变更和创新。大模型的兴起,对数据库也有深刻的影响,包括通过大模型赋能的 SQL 改写,智能诊断,问答等一系列能力。同时数据库承担基础数据管理的作用,数据库技术如向量数据库,对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就,数据库技术在过去的一年内取得非常大的创新和发展,介绍这块关键技术的发展,相信可以帮助到感兴趣的从业人士以及观众朋友。


【活动推荐】

在 2024 年 6 月 14-15 日深圳 ArchSummit 架构师峰会上,我们邀请了 CNCF、顺丰集团、腾讯、百度等企业的专家来演讲。会议上还设置了大模型、架构升级等专题,如果你感兴趣来会议上听演讲,欢迎进入 ArchSummit 会议官网,查看讲师们的详细演讲提纲。


会议现已进入 8 折早鸟购票阶段,可以联系票务经理 17310043226 , 锁定最新优惠。扫描上方二维码添加大会福利官,免费领取定制福利礼包。



2024-04-02 18:3411875

评论

发布
暂无评论
发现更多内容

高性能IO模型:为什么单线程Redis能那么快?

小Q

Java redis 学习 架构 面试

第八周总结

《Java程序员修炼之道》.pdf

田维常

详解快速开发平台与工作流通用组件的设计规范

Philips

敏捷开发 快速开发 企业应用

springboot+java+redis 简单实用的搜索栏热搜,个人历史记录,文字过滤

灰尘子

SpringBoot中的响应式web应用

程序那些事

spring WebFlux 程序那些事 响应式系统 spring 5

极客大学 - 架构师训练营 第九周作业

9527

HTTP 前世今生

coolion

大前端 HTTP

数据库建表、SQL、索引规范

Bruce Duan

MySQL sql 建表 规范

一个数据中台如何算成功了?

薄荷点点

数据中台

关于mysqldump,这个参数你可能还不知道

Simon

MySQL timestamp

面对大促DevOps怎么做?这里有一份京东11.11 DevOps备战指南

京东科技开发者

云计算 DevOps 运维自动化

数字信封加密

笑春风

不可思议,竟然还有人不会查看GC垃圾回收日志?

田维常

垃圾回收 GC

BATJTMD,大厂招聘,都招什么样Java程序员?

小傅哥

Java 互联网 面试 小傅哥 简历

熔断原理与实现Golang版

万俊峰Kevin

microservice Go 语言

【涂鸦物联网足迹】涂鸦云平台数据类型和取值约束说明

IoT云工坊

人工智能 云计算 物联网 云平台 数据类型

分布式集群如何实现高效的数据分布

vivo互联网技术

分布式 DHT hash 数据存储

架构师第一期作业(第8周)

Cheer

作业

第八周作业

面试重灾区——Synchronized深度解析

执墨

并发编程 synchronized 内存布局 CAS 锁升级

将减少阻力的香蕉法则,运用在软件开发上会产生什么效果?

Philips

敏捷开发 快速开发 企业应用

接口测试文件上传(python+requests)

测试人生路

Python 接口测试

手把手教你撸一个能生成抖音风格动图的gif制作平台

徐小夕

Java css3 GitHub 开源 GIF

决策树算法-实战篇

比伯

Java 大数据 编程 架构 算法

架构师训练营第 1 期第 8 周作业

owl

极客大学架构师训练营

京东11.11完美收官!京东智联云以技术服务助力实体经济

京东科技开发者

云计算 大数据 云安全

线程池 ThreadPoolExecutor 原理及源码笔记

程序员小航

Java 源码 jdk 线程池 并发

charles的使用方法

Yolanda_trying

直播预告 | 云原生在CloudQuery中的应用与实践

BinTools图尔兹

数据库 sql 容器 云原生 工具软件

重大活动网络攻击面前,京东智联云的攻防之道

京东科技开发者

云计算 网络安全 云安全

大模型时代,AI 和数据库技术会碰撞出什么新火花?_百度_Xue Liang_InfoQ精选文章