最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

大模型时代,AI 和数据库技术会碰撞出什么新火花?

  • 2024-04-02
    北京
  • 本文字数:3264 字

    阅读完需:约 11 分钟

大模型时代,AI 和数据库技术会碰撞出什么新火花?

数据库作为关键 PaaS 能力,一直顺应业务和技术发展,不停变更和创新。大模型的兴起,对数据库也有深刻的影响,包括通过大模型赋能的 SQL 改写,智能诊断,问答等一系列能力。同时数据库承担基础数据管理的作用,数据库技术如向量数据库,对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就,数据库技术在过去的一年内取得非常大的创新和发展,介绍这块关键技术的发展,相信可以帮助到感兴趣的从业人士以及观众朋友。


InfoQ 正在筹备 2024 年 6 月 14-15 日深圳举办的 ArchSummit 全球架构师峰会,我们邀请到了百度数据库产品总架构师朱洁老师来分享数据库和 AI 的发展史以及最新现状,以及百度在数据库和 AI 结合上的关键进展以及实际案例。在会议召开前,我们采访了朱洁老师,帮助读者提前了解到相关的技术落地细节。



InfoQ:您如何看待大模型时代对数据库技术创新的挑战和机遇?对数据库技术的影响主要体现在哪些方面?


朱洁: 大模型对数据库技术带来的机遇是远大于挑战的。传统数据库技术或者大数据技术处理的还是以结构化数据为主,或者要把非结构化数据先预处理成结构化数据才好处理。但事实上,非结构化数据才是最自然,体量最大的数据。大模型技术让非结构化数据有新的处理方法,放大非结构数据的价值,因此也带来了底层数据库更多的发挥空间。


大模型对数据库的影响主要可以从两个方面看,一个是 DB4AI,主要是向量数据库技术。通过向量数据库解决大模型知识更新不及时,幻觉问题,以及缺乏企业内部知识,也无法进行细粒度安全管理等问题。另一个是 AI4DB,通用大模型技术对数据库本身进行优化,主要方向包括数据库自动运维,SQL 生成,SQL 优化,智能问答等等。


总的来说,数据库和大模型肯定是相辅相成,数据库技术在大模型时代有了更大的想象空间。


InfoQ:在大模型的兴起背景下,数据库技术如何适应和应对新的数据处理需求?


朱洁: 大模型技术让非结构化数据有了新的应用空间,数据库变化比较大的是对文本等非结构化数据处理,以及未来甚至图片,视频等多模的数据。


目前这块发展很快,主要包括文本拆分,怎么 Embedding 多模数据,怎么实现多路召回,以及向量引擎通过 GPU ,以及更好数据组织模式来实现高性价比等。


InfoQ:在数据库行业的技术发展中,大模型技术与人工智能的相互作用是如何发挥作用的?


朱洁: 大模型属于人工智能领域的一个重要组成部分。现在一般说大模型是指生成式 AI 技术(GenAI)。


在数据库领域一直使用 AI 技术,传统上主要是一些预测算法,分类算法这些,解决比如运维的问题。大模型诞生之后,在代码生成,知识处理方面相比传统 AI 技术有了革命性提升,但是在一些传统系统运维,调优方面还是传统算法实现更简单,效率更高。


因此大模型技术更多的是在原来的技术的基础上更深入的解决原来不好解决的代码生成,知识管理等。对原有技术是一个非常大的补充,提升和扩展。


InfoQ:您能分享一些数据库和人工智能领域的创新案例,特别是在大模型时代的实际应用?


朱洁: 这块的技术发展很快,各个厂家都在进行相应的尝试和布局。当前比较创新的数据库和大模型结合的案例和应用有:


  • 智能问答:通过大模型技术解决数据库运维问题,DBA 值班等。

  • 代码生成 & 翻译:自然语言到 SQL(NL2SQL),或者把一种 SQL 翻译成另外一种,典型的 Oracle 翻译成 MySQL 之类。

  • SQL 优化:改写、注释、纠错、解释,补全

  • 智能问数:自然语言询问,内部通过大模型转成 SQL,查询出结果,然后大模型再总结以报表,报告形式展示出来。


InfoQ:作为百度智能云数据库产品总架构师,您如何看待数据库和人工智能的结合,在实际业务中取得的关键进展?


朱洁: 首先我们的大模型在业界有领先优势,其次是百度智能云在这方面布局很早,也很全。因此我们目前在这块很有竞争力。我们介绍几个最新的关键的成果:


  • 发布了 VectorDB 1.0,向量数据库是企业不可或缺的知识库核心组件,它针对传统知识库问答系统遇到的性能瓶颈、维护挑战及规模限制等问题提供了有力解决方案。全新发布的百度向量数据库 VectorDB 1.0,不仅集成了全面的运维控制和安全防护能力,还兼容了千帆、LangChain 等主流生态系统,能够帮助企业轻松管理数以千万计的文档知识,最大支持百亿向量存储规模以及毫秒级的向量检索速度。同时,相比同类型开源产品,VectorDB 1.0 性能最高提升 10 倍。

  • 发布了数据库智能驾驶舱(Database Smart Cockpit,DBSC),这个服务是利用大模型技术解决数据库运维,安全,智能问答的能力。通过内置的百度文心大模型能力,再加上百度积累的数据库运维知识库等,帮助用户回答云原生数据库 GaiaDB、MySQL、Redis 等数据库产品的各种使用场景复杂问题,以及显著降低异常问题定位时间,以及提升 SQL 优化效率等。目前这个服务在百度内部已经成功帮助 DBA 团队降低超过 50% 的运维工作量。


InfoQ:对于百度在数据库和人工智能结合上的关键进展,您认为最有意义的是什么?


朱洁: 对外部而言,我们致力于为客户提供强大、高性能、稳定可靠的数据库产品,首先通过大模型技术对数据库技术的改造和升级也能帮助客户降低数据库的使用门槛和成本。其次我们提供更好的解决方案和能力套件,帮助客户更快地开发基于大模型的 AI 原生应用,帮助客户更快地应用上 AI 能力,创造新的业务机会。


对内部而言,百度具备优秀的大模型技术和产品,同时也需要优秀的各类配套组件,共同支撑百度智能云构建强大的 AI 原生应用产品和解决方案。数据库技术的努力突破,才能更好的支撑好百度的大模型战略。


InfoQ:在 AI 与数据库的结合中,百度是否有一些特定的技术路径或策略?


朱洁:AI 技术和数据库技术都在快速发展过程中,我们几个主要的策略有:


  • 坚持技术和场景结合的原则:技术只有和场景深度结合,才容易成熟,以及真正解决问题。因此我们对大模型的应用并不追求尝鲜,一定是选择可以和场景深度结合,各方面条件成熟,以及内部深度使用之后再给到我们的客户。

  • 坚持技术的普惠的原则:普惠核心意味着要让更多用户,更多场景可以使用。对数据库技术来说主要体现在两点:首先我们在设计的时候就会基于通用硬件去设计,云上,云下都可以部署,大客户,小客户都能用。这个体现在我们的 VectorDB,DBSC,GaiaDB 等多个产品中。另外一个核心是坚持起步门槛低,为了让更多用户用到,我们 VectorDB,DBSC 目前都提供了免费版本,让用户可以直接使用。也欢迎大家到百度智能云上选择相应的免费版本,体验最新大模型加持的能力。

  • 坚持开放的原则:除了我们自研之外,我们也非常欢迎更多的第三方厂商和我们一起共建,或者集成我们的产品。


InfoQ:您对 AIGC 与数据库结合的未来发展有何展望?


朱洁: 这个领域还在一个刚起步和快速发展阶段。我觉得下一个阶段的发展,核心有两点:


  • 已有产品的成熟,随着技术发展,使用者越多,会更催熟当前的产品,更深度的解决客户实际场景问题。

  • 多模态支持:当前技术处理文本为主,未来多模态的能力会越来越强,也会在这个基础上诞生更多的应用。


InfoQ:在演讲中提到的数据库技术的创新和发展对从业人员和观众朋友意味着什么?ArchSummit 听众能从您的这次演讲中可以获得哪些实际的收益和启发?


朱洁: 数据库作为关键 PaaS 能力,一直顺应业务和技术发展,不停变更和创新。大模型的兴起,对数据库也有深刻的影响,包括通过大模型赋能的 SQL 改写,智能诊断,问答等一系列能力。同时数据库承担基础数据管理的作用,数据库技术如向量数据库,对解决大模型一些幻觉等也起到关键的作用。大模型和数据库技术相互成就,数据库技术在过去的一年内取得非常大的创新和发展,介绍这块关键技术的发展,相信可以帮助到感兴趣的从业人士以及观众朋友。


【活动推荐】

在 2024 年 6 月 14-15 日深圳 ArchSummit 架构师峰会上,我们邀请了 CNCF、顺丰集团、腾讯、百度等企业的专家来演讲。会议上还设置了大模型、架构升级等专题,如果你感兴趣来会议上听演讲,欢迎进入 ArchSummit 会议官网,查看讲师们的详细演讲提纲。


会议现已进入 8 折早鸟购票阶段,可以联系票务经理 17310043226 , 锁定最新优惠。扫描上方二维码添加大会福利官,免费领取定制福利礼包。



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-04-02 18:348030

评论

发布
暂无评论

PWA结合小程序:为用户带来原生应用体验

Onegun

小程序 PWA

分而治之--浅谈分库分表及实践之路 | 京东云技术团队

京东科技开发者

数据库 后端 分库分表 SaaS 平台 企业号 6 月 PK 榜

编写Java代码时应该避免的6个坑

越长大越悲伤

Java

如何基于G6进行双树流转绘制? | 京东云技术团队

京东科技开发者

双数组trie树 CRM系统 企业号 6 月 PK 榜 复杂树

玩转服务器之数据传输篇:如何快速搭建FTP文件共享服务器

京东科技开发者

数据传输 云服务器 ftp服务 企业号 6 月 PK 榜

设计模式详解之策略模式

阿里技术

设计模式 策略模式

开源赋能 普惠未来|UBSICE诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

大数据 开源 开放原子

龙蜥白皮书精选:开源 RISC-V 技术支持软硬件全栈平台

OpenAnolis小助手

开源 操作系统 risc-v 龙蜥社区 龙蜥sig

开源赋能 普惠未来|TKEStack诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

开源 开放原子开源基金会 开放原子全球开源峰会

英特尔持续耕耘锐炫显卡:累计21次驱动更新,支持XeSS游戏达50+

E科讯

PS图像无损放大插件 Blow Up 3最新激活版

真大的脸盆

Mac Mac 软件 图片无损放大 无损放大插件

开源赋能 普惠未来|中软国际寄语2023开放原子全球开源峰会

开放原子开源基金会

开源 开放原子开源基金会 开放原子全球开源峰会 开放原子

UniFi USW-Flex 室内-室外 POE 交换机

HoneyMoose

火山引擎DataLeap的Catalog系统搜索实践 (二):整体架构

字节跳动数据平台

元数据 catalog DataLeap 文档检索

GPT现状终于有人讲清楚了!OpenAI大牛最新演讲爆火,还得是马斯克钦点的天才

Openlab_cosmoplat

开源 AI ChatGPT

开源赋能 普惠未来|ZTDBP诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子

OpenMLDB v0.8 新功能:离线引擎数据源支持 Amazon S3

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

【mac/win】navicat安装破解教程 Navicat 16 中文下载

魔仙苹果mac堡

Navicat Premium破解版 Navicat Premium16 navicat数据库 好用的数据库软件

深度学习进阶篇[8]:对抗神经网络GAN基本概念简介、纳什均衡、生成器判别器、解码编码器详解以及GAN应用场景

汀丶人工智能

人工智能 深度学习 GAN 博弈论 生成对抗网络

六一新玩法!AI涂鸦秒变精美艺术画

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

ChunJun FTP Connector 功能扩展解读

袋鼠云数栈

开源 企业号 6 月 PK 榜

Tomcat 安装与启动

Andy

RustChinaConf 2023官网上线,精彩议题早知道

Mike Tang

华秋硬创 | 全国科技工作者日,致敬每一位科技创新者!

华秋电子

M2M场景之客户端凭证模式|OIDC & OAuth2.0 认证协议最佳实践系列 【4】

Authing

OAuth 2.0 Oauth OIDC

软件测试/测试开发丨学习笔记之Allure2测试报告

测试人

程序员 软件测试 自动化测试 测试开发 Allure

XMind2023思维导图软件 完美永久激活版 支持M1/M2

魔仙苹果mac堡

XMind下载 XMind思维导图 XMind2023新功能 XMind永久激活版

2天时间3个面试,百度进了3面!

王中阳Go

golang 职场 面经 求职面试 提高效率

从0到1搭建自己的脚手架(java后端) | 京东云技术团队

京东科技开发者

Java 后端 脚手架 Java脚手架 企业号 6 月 PK 榜

ShareSDK iOS端合规指南

MobTech袤博科技

深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决

汀丶人工智能

人工智能 深度学习 计算机视觉 GAN 生成对抗网络

大模型时代,AI 和数据库技术会碰撞出什么新火花?_百度_Lucien_InfoQ精选文章