写点什么

大模型时代,AI 和数据库技术会碰撞出什么新火花?

  • 2024-04-02
    北京
  • 本文字数:3264 字

    阅读完需:约 11 分钟

大模型时代,AI 和数据库技术会碰撞出什么新火花?

数据库作为关键 PaaS 能力,一直顺应业务和技术发展,不停变更和创新。大模型的兴起,对数据库也有深刻的影响,包括通过大模型赋能的 SQL 改写,智能诊断,问答等一系列能力。同时数据库承担基础数据管理的作用,数据库技术如向量数据库,对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就,数据库技术在过去的一年内取得非常大的创新和发展,介绍这块关键技术的发展,相信可以帮助到感兴趣的从业人士以及观众朋友。


InfoQ 正在筹备 2024 年 6 月 14-15 日深圳举办的 ArchSummit 全球架构师峰会,我们邀请到了百度数据库产品总架构师朱洁老师来分享数据库和 AI 的发展史以及最新现状,以及百度在数据库和 AI 结合上的关键进展以及实际案例。在会议召开前,我们采访了朱洁老师,帮助读者提前了解到相关的技术落地细节。



InfoQ:您如何看待大模型时代对数据库技术创新的挑战和机遇?对数据库技术的影响主要体现在哪些方面?


朱洁: 大模型对数据库技术带来的机遇是远大于挑战的。传统数据库技术或者大数据技术处理的还是以结构化数据为主,或者要把非结构化数据先预处理成结构化数据才好处理。但事实上,非结构化数据才是最自然,体量最大的数据。大模型技术让非结构化数据有新的处理方法,放大非结构数据的价值,因此也带来了底层数据库更多的发挥空间。


大模型对数据库的影响主要可以从两个方面看,一个是 DB4AI,主要是向量数据库技术。通过向量数据库解决大模型知识更新不及时,幻觉问题,以及缺乏企业内部知识,也无法进行细粒度安全管理等问题。另一个是 AI4DB,通用大模型技术对数据库本身进行优化,主要方向包括数据库自动运维,SQL 生成,SQL 优化,智能问答等等。


总的来说,数据库和大模型肯定是相辅相成,数据库技术在大模型时代有了更大的想象空间。


InfoQ:在大模型的兴起背景下,数据库技术如何适应和应对新的数据处理需求?


朱洁: 大模型技术让非结构化数据有了新的应用空间,数据库变化比较大的是对文本等非结构化数据处理,以及未来甚至图片,视频等多模的数据。


目前这块发展很快,主要包括文本拆分,怎么 Embedding 多模数据,怎么实现多路召回,以及向量引擎通过 GPU ,以及更好数据组织模式来实现高性价比等。


InfoQ:在数据库行业的技术发展中,大模型技术与人工智能的相互作用是如何发挥作用的?


朱洁: 大模型属于人工智能领域的一个重要组成部分。现在一般说大模型是指生成式 AI 技术(GenAI)。


在数据库领域一直使用 AI 技术,传统上主要是一些预测算法,分类算法这些,解决比如运维的问题。大模型诞生之后,在代码生成,知识处理方面相比传统 AI 技术有了革命性提升,但是在一些传统系统运维,调优方面还是传统算法实现更简单,效率更高。


因此大模型技术更多的是在原来的技术的基础上更深入的解决原来不好解决的代码生成,知识管理等。对原有技术是一个非常大的补充,提升和扩展。


InfoQ:您能分享一些数据库和人工智能领域的创新案例,特别是在大模型时代的实际应用?


朱洁: 这块的技术发展很快,各个厂家都在进行相应的尝试和布局。当前比较创新的数据库和大模型结合的案例和应用有:


  • 智能问答:通过大模型技术解决数据库运维问题,DBA 值班等。

  • 代码生成 & 翻译:自然语言到 SQL(NL2SQL),或者把一种 SQL 翻译成另外一种,典型的 Oracle 翻译成 MySQL 之类。

  • SQL 优化:改写、注释、纠错、解释,补全

  • 智能问数:自然语言询问,内部通过大模型转成 SQL,查询出结果,然后大模型再总结以报表,报告形式展示出来。


InfoQ:作为百度智能云数据库产品总架构师,您如何看待数据库和人工智能的结合,在实际业务中取得的关键进展?


朱洁: 首先我们的大模型在业界有领先优势,其次是百度智能云在这方面布局很早,也很全。因此我们目前在这块很有竞争力。我们介绍几个最新的关键的成果:


  • 发布了 VectorDB 1.0,向量数据库是企业不可或缺的知识库核心组件,它针对传统知识库问答系统遇到的性能瓶颈、维护挑战及规模限制等问题提供了有力解决方案。全新发布的百度向量数据库 VectorDB 1.0,不仅集成了全面的运维控制和安全防护能力,还兼容了千帆、LangChain 等主流生态系统,能够帮助企业轻松管理数以千万计的文档知识,最大支持百亿向量存储规模以及毫秒级的向量检索速度。同时,相比同类型开源产品,VectorDB 1.0 性能最高提升 10 倍。

  • 发布了数据库智能驾驶舱(Database Smart Cockpit,DBSC),这个服务是利用大模型技术解决数据库运维,安全,智能问答的能力。通过内置的百度文心大模型能力,再加上百度积累的数据库运维知识库等,帮助用户回答云原生数据库 GaiaDB、MySQL、Redis 等数据库产品的各种使用场景复杂问题,以及显著降低异常问题定位时间,以及提升 SQL 优化效率等。目前这个服务在百度内部已经成功帮助 DBA 团队降低超过 50% 的运维工作量。


InfoQ:对于百度在数据库和人工智能结合上的关键进展,您认为最有意义的是什么?


朱洁: 对外部而言,我们致力于为客户提供强大、高性能、稳定可靠的数据库产品,首先通过大模型技术对数据库技术的改造和升级也能帮助客户降低数据库的使用门槛和成本。其次我们提供更好的解决方案和能力套件,帮助客户更快地开发基于大模型的 AI 原生应用,帮助客户更快地应用上 AI 能力,创造新的业务机会。


对内部而言,百度具备优秀的大模型技术和产品,同时也需要优秀的各类配套组件,共同支撑百度智能云构建强大的 AI 原生应用产品和解决方案。数据库技术的努力突破,才能更好的支撑好百度的大模型战略。


InfoQ:在 AI 与数据库的结合中,百度是否有一些特定的技术路径或策略?


朱洁:AI 技术和数据库技术都在快速发展过程中,我们几个主要的策略有:


  • 坚持技术和场景结合的原则:技术只有和场景深度结合,才容易成熟,以及真正解决问题。因此我们对大模型的应用并不追求尝鲜,一定是选择可以和场景深度结合,各方面条件成熟,以及内部深度使用之后再给到我们的客户。

  • 坚持技术的普惠的原则:普惠核心意味着要让更多用户,更多场景可以使用。对数据库技术来说主要体现在两点:首先我们在设计的时候就会基于通用硬件去设计,云上,云下都可以部署,大客户,小客户都能用。这个体现在我们的 VectorDB,DBSC,GaiaDB 等多个产品中。另外一个核心是坚持起步门槛低,为了让更多用户用到,我们 VectorDB,DBSC 目前都提供了免费版本,让用户可以直接使用。也欢迎大家到百度智能云上选择相应的免费版本,体验最新大模型加持的能力。

  • 坚持开放的原则:除了我们自研之外,我们也非常欢迎更多的第三方厂商和我们一起共建,或者集成我们的产品。


InfoQ:您对 AIGC 与数据库结合的未来发展有何展望?


朱洁: 这个领域还在一个刚起步和快速发展阶段。我觉得下一个阶段的发展,核心有两点:


  • 已有产品的成熟,随着技术发展,使用者越多,会更催熟当前的产品,更深度的解决客户实际场景问题。

  • 多模态支持:当前技术处理文本为主,未来多模态的能力会越来越强,也会在这个基础上诞生更多的应用。


InfoQ:在演讲中提到的数据库技术的创新和发展对从业人员和观众朋友意味着什么?ArchSummit 听众能从您的这次演讲中可以获得哪些实际的收益和启发?


朱洁: 数据库作为关键 PaaS 能力,一直顺应业务和技术发展,不停变更和创新。大模型的兴起,对数据库也有深刻的影响,包括通过大模型赋能的 SQL 改写,智能诊断,问答等一系列能力。同时数据库承担基础数据管理的作用,数据库技术如向量数据库,对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就,数据库技术在过去的一年内取得非常大的创新和发展,介绍这块关键技术的发展,相信可以帮助到感兴趣的从业人士以及观众朋友。


【活动推荐】

在 2024 年 6 月 14-15 日深圳 ArchSummit 架构师峰会上,我们邀请了 CNCF、顺丰集团、腾讯、百度等企业的专家来演讲。会议上还设置了大模型、架构升级等专题,如果你感兴趣来会议上听演讲,欢迎进入 ArchSummit 会议官网,查看讲师们的详细演讲提纲。


会议现已进入 8 折早鸟购票阶段,可以联系票务经理 17310043226 , 锁定最新优惠。扫描上方二维码添加大会福利官,免费领取定制福利礼包。



2024-04-02 18:3411837

评论

发布
暂无评论
发现更多内容

2023数字中国建设峰会:百度点石获开放群岛开源社区优秀共建单位

百度安全

Seata 的可观测实践

阿里巴巴云原生

阿里云 云原生 seata

用写代码的方式画图-试下PlantUML吧 | 京东云技术团队

京东科技开发者

开发工具 PlantUML 画图软件 企业号 5 月 PK 榜

关于PCBA元器件布局的重要性

华秋PCB

工具 元器件 PCB 布局 PCB设计

面试官:你能和我说一下 CMS 垃圾回收器吗?

Java你猿哥

算法 CMS JVM 垃圾回收器 垃圾收集器

2023语言与智能技术竞赛开辟“双赛道”:寻找“全民测评官”,探索AI多模态能力

飞桨PaddlePaddle

深度学习基础入门篇[9.1]:卷积之标准卷积:卷积核/特征图/卷积计算、填充、感受视野、多通道输入输出、卷积优势和应用案例讲解

汀丶人工智能

人工智能 神经网络 深度学习 卷积网络 卷积相关算子

LED显示屏如何做到节能

Dylan

效率 能源 节能 LED显示屏

硬核!互联网资深大佬手码高并发编程速成笔记(2023版)限时开源

Java 并发编程 高并发

聊聊 万亿流量场景下的负载均衡实践

Java你猿哥

负载均衡 ssm 高并发 DNS 负载均衡架构

IPQ8072 or IPQ8072A with the QCN9074/9024 chipset / well-suited for high-end routers.

Cindy-wallys

IPQ8072

rt下降40%?程序并行优化六步法 | 京东云技术团队

京东科技开发者

性能优化 异步编程 企业号 5 月 PK 榜 多线程优化 并发框架

深度学习基础入门篇[9.2]:卷积之1*1 卷积(残差网络)、2D/3D卷积、转置卷积数学推导、应用实例

汀丶人工智能

人工智能 神经网络 深度学习 卷积网络 卷积核

火山引擎DataTester:小改动带来大收益,A/B实验助力幸福里APP精准优化

字节跳动数据平台

ab测试 A/B 测试

如何使用、部署 Auto-GPT?系统开发技术分析

Congge420

系统开发 区块链、 autogpt

TF游戏Ai智能系统开发

Congge420

系统开发 区块链、 智能运维AIOps

软件测试/测试开发丨Python基本数据类型之字符串

测试人

Python 软件测试 自动化测试 测试开发

【程序员日记】——从业务编排到低代码 | 京东云技术团队

京东科技开发者

低代码 业务 企业号 5 月 PK 榜 业务编排

线上问题处理案例:出乎意料的数据库连接池 | 京东云技术团队

京东科技开发者

数据库 GC 线上问题 数据库连接池 企业号 5 月 PK 榜

抠图党福音:教你一键分割图像

华为云开发者联盟

华为云 华为云开发者联盟 企业号 5 月 PK 榜 人工资高hi嗯呢该 分割图像

为什么MySQL单表不能超过2000万行?

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

为什么我们拥有庞大的语言模型,而Vision Transformers的规模却很小?

Baihai IDP

人工智能 深度学习 计算机视觉 白海科技 Vision Transformers

BSC智能链游戏链系统开发解析

Congge420

区块链追溯系统开发 元宇宙 元宇宙系统开发

看完这篇,DWS故障修复不再愁

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

【实践篇】领域驱动设计:DDD工程参考架构 | 京东云技术团队

京东科技开发者

领域驱动设计 DDD 企业号 5 月 PK 榜 工程架构

OpenHarmony社区运营报告(2023年4月)

OpenHarmony开发者

OpenHarmony

软件测试/测试开发丨Python控制流–分支判断和循环

测试人

Python 软件测试 自动化测试 测试开发

非常实验——在SSH下通过终端浏览网页

吴脑的键客

浏览器 终端工具

真香!阿里最新产出分布式进阶实战手册,涵盖分布式架构所有操作

Java你猿哥

架构 微服务架构 Spring Cloud Spring Boot ssm

大模型时代,AI 和数据库技术会碰撞出什么新火花?_百度_Xue Liang_InfoQ精选文章