阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

专访李潇:数据智能平台,AI 时代的 Lakehouse 架构

  • 2024-01-17
    北京
  • 本文字数:4889 字

    阅读完需:约 16 分钟

大小:2.34M时长:13:36
专访李潇:数据智能平台,AI时代的Lakehouse架构

在过去十年里,随着公有云的崛起、数据激增和人工智能的兴起等浪潮席卷,整个数据架构经历了巨大的变革和更新。这些激变使得数据架构发生了天翻地覆的变化。作为一家领先的大数据处理平台提供商,Databricks 一直扮演着引领者的角色。

 

在今年生成式 AI 的潮流中,Databricks 不仅率先发布了开源可商用的大模型 Dolly,还于 6 月底宣布以 13 亿美元的价格,收购生成式 AI 公司 MosaicML。Databricks 在 GenAI 上的投入也反映了整个大数据行业的技术演进。在 2023 年终盘点之际,InfoQ 有幸采访了 Databricks 工程总监、Apache Spark Committer 和 PMC 成员李潇,了解他对大数据技术栈的看法,以及 Databricks 在数据智能平台上的进展和规划。


完整年终盘点文章:挑战 Spark 和 Flink?大数据技术栈的突围和战争 | 年度技术盘点与展望

 

InfoQ:今年,关于大数据基础设施的演进,您观察到有哪些重要更新或变化?

 

李潇:大数据领域随着生成式 AI 的兴起也变得异常热闹,我这里简略提及四点。

 

Lakehouse 平台的增长:Lakehouse 平台在数据仓储领域的使用正迅速增加。这反映了一个重要的趋势:组织正从传统的数据处理平台过渡到更加灵活、集成和效率更高的现代数据架构。据 2023 年 MIT Technology Review Insights 报告,全球 74%的首席信息官(CIOs)表示他们已经在使用 Lakehouse 架构。自 Databricks 在 2020 年推出此概念以来,Lakehouse 作为一个新类别得到了广泛的采纳。几乎所有还未使用 Lakehouse 的首席信息官都计划在未来三年内部署此类平台。

 

Serverless 技术的普及:在过去两年里,Serverless 技术在各个数据及人工智能(Data+AI)产品线中的应用变得极为普遍。Serverless 架构的核心优势在于其能够提供无需管理底层服务器的数据处理和计算能力,从而使组织能够专注于核心业务逻辑而无需考虑基础设施的成本和维护。比如,Databricks SQL(Lakehouse 上的无服务器数据仓库)使用量获得了大幅增长。这种架构模式特别适合于快速开发和部署,因为它能够根据需求自动扩展资源,并且只在实际使用时产生费用。在 Data+AI 领域,Serverless 技术的引入使得数据处理、机器学习模型的训练和部署变得更加高效、灵活且成本有效。

 

机器学习和大型语言模型(LLM)应用的扩展:机器学习和大型语言模型,特别是自然语言处理(NLP),正在经历迅速的应用扩展。这些技术不仅加强了传统分析任务的能力,还催生了新的应用场景,如聊天机器人、研究助手、欺诈检测和内容生成等。例如,Databricks 的 Data Intelligence Platform 融合了生成式 AI 和 Lakehouse 架构的优势,创造了一个能够理解数据独特语义的数据智能引擎。这一平台针对特定业务需求,自动优化性能和管理基础设施,极大地简化了用户通过自然语言查询和发现新数据的体验。这反映出组织不仅在将更多的模型投入生产,也在加大对机器学习实验的投入,显示出机器学习方法和工具使用的成熟度和有效性正在不断提升。

 

开源技术在数据和 AI 市场的关键作用及数据所有权的重要性:在人工智能和机器学习产品开发中,开源技术扮演着核心角色。我们需要一个更加安全、透明和可持续的数据和 AI 市场。开源平台和工具使用户能够更好地掌控他们的数据和技术堆栈,从而确保数据隐私和安全性,这在当前的 AI 和 ML 策略中至关重要。Databricks 是开源社区的坚信者,对开源社区的持续贡献和对数据所有权重要性的强调,展现了我们对于建立一个开放、负责任且创新的技术生态系统的承诺。

 

InfoQ:2020年的年终盘点https://www.infoq.cn/article/k6Y0wXB7UGIOu2ak85WV),您预测趋势之一:“数据流水线(Data Pipeline)从复杂到简单”,如今对这个当初的预测您有新的感想吗?

 

李潇:在 2022 年,我们发布了全新的 Delta Live Table (DLT),这个正好对应了在 2020 年“数据流水线(Data Pipeline)从复杂到简单”的预测。这是第一个通过声明式方法来构建数据流水线的。它显著降低了数据管道的复杂性,同时提高了效率和可靠性,这使得数据流水线更易于构建、维护和操作。这对于希望快速、高效地处理大量数据的企业来说是一个巨大的进步。我们这里介绍一下它为了简易好用所引入的六个特性吧。

 

1) 声明式编程模型: DLT 采用声明式编程模型,使得定义和维护数据管道更为直观和简单。用户只需要指定所需的最终数据状态,DLT 则负责执行必要的步骤来实现这一状态。

2) 自动化数据工程任务: DLT 自动化了许多传统上需要手动编码的数据工程任务,如数据清洗、转换和聚合。通过减少需要手动编写和调试的代码量,DLT 简化了整个数据处理流程。

3) 错误处理和数据质量保证: DLT 内置了错误处理和数据质量检查机制。这意味着数据工程师可以花费更少的时间在解决数据质量问题上,而更多地专注于数据分析和提取洞察。

4) 优化的资源管理和成本效率: DLT 通过自动调整资源使用(例如,在处理大量数据时自动扩展计算资源),提高了资源管理的效率,降低了操作成本。

5) 改进的监控和维护: DLT 提供了增强的监控和维护功能,使得跟踪数据管道的性能和识别潜在问题变得更加容易。

6) 无缝集成和扩展性: DLT 可以无缝集成到现有的数据生态系统中,并且具有很好的扩展性,支持从小型项目到大规模企业级应用的不同需求。

 

InfoQ:以 Databricks 的发展为例,回头去看大数据技术的发展,您认为主要可以分为哪几个阶段?

 

李潇:大数据技术的发展,以 Databricks 的成长历程为例,可以分为几个关键阶段,这些阶段不仅展现了 Databricks 的发展轨迹,也反映了整个大数据行业的技术演进。

 

首先是 Apache Spark 的诞生阶段。这个阶段始于 2010 年,标志着 Hadoop 技术时代的结束。Apache Spark 由 Databricks 的创始人之一 Matei Zaharia 等人开发,这是一个开源的分布式计算系统。它的出现大幅降低了大数据处理的门槛,使得大数据开始与机器学习和人工智能结合,成为统一的分析引擎。它使得用户可以更简单、方便地进行全量数据分析、实时流处理和复杂的数据分析。从此,大数据不再仅限于技术巨头,而是开始被更广泛的行业和企业采用。

 

接下来是 Lakehouse 架构的推出阶段。这一阶段发生在 2020 年,打破了传统数据湖和数据仓库的界限。Lakehouse 架构结合了数据湖和数据仓库的最佳元素,旨在降低成本并加速数据及人工智能项目的实施。Lakehouse 架构建立在开源和开放标准之上,它通过消除历史上复杂化数据和 AI 的孤岛,简化了数据架构。值得注意的是,Apache Spark 只是 Lakehouse 架构中的可选模块之一。

 

最后是生成式 AI 大潮下的 Lakehouse 阶段。在这个阶段,Lakehouse 成为了下一代数据智能平台 (Data Intelligence Platform) 的基础。这个数据智能平台将 AI 带入数据处理,帮助全世界的用户发现数据的价值。在这个平台上,用户可以开发基于自己数据的生成式 AI 应用,同时不必牺牲数据隐私或控制权。它使得组织中的每个人都能使用自然语言来从数据中发现洞见。

 

总的来说,这些阶段并不是严格分隔的,而是相互交织和演进的。每个阶段都反映了当时技术发展的需求和挑战,同时预示着下一阶段的到来。未来,数据和 AI 不分家!

 

InfoQ:Databricks 今年最大的进展主要体现在哪个方面?是 AI 方向上的吗?

 

李潇:今年,Databricks 的最大进展主要体现在将人工智能集成到数据平台中。公司构建了一个基于数据湖仓(Lakehouse)的数据智能平台(Data Intelligence Platform),专注于 AI 在数据处理中的变革作用。这个平台利用生成式 AI 模型来理解数据的语义,并在整个平台中应用这种理解。用户可以在保持隐私和控制的同时,从头开始构建模型或调整现有模型。该平台的目标是实现数据和 AI 的平民化,使用自然语言极大简化了数据和 AI 的端到端体验。通过在数据和 AI 的每一层应用 AI,可以实现针对特定业务的全面自动化和成本效率。这种平台的统一性有助于用户以数据为中心的方式应对任何模型开发场景,使用私有数据,从而拥有更强的竞争和经济优势。

 

数据湖仓对 GenAI 起到了什么样的帮助或作用?(湖仓应该只是 pipeline 的一环,但是跟 GenAI 有直接联系么?企业如何利用湖仓架构支持他们的 AI 战略,从技术上说他们需要做些什么?)

 

数据湖仓(Lakehouse)为 GenAI 提供了一个集中、高效和可扩展的数据存储和管理环境。它结合了数据湖的灵活性和数据仓库的高性能,支持结构化和非结构化数据的存储和处理,这是 AI 应用的数据需求的基石。

 

数据质量和治理:数据湖仓通过提供强大的数据治理工具(如 Databricks 的 Unity Catalog)来确保数据的质量和安全。这对于构建准确可靠的 AI 模型至关重要。Unity Catalog 帮助企业精确管理其数据,提供完整的元数据和数据溯源信息,从而提高 AI 模型的准确度,并确保数据的安全性。

 

数据访问和处理:数据湖仓支持高效的数据访问和处理,这对于实时 AI 应用和深度学习模型训练尤为重要。在 Databricks 的 Lakehouse,通过 Unity Catalog,智能引擎可以理解数据和数据之间的关系,企业可以使用自然语言来安全地查找和理解数据,这对于在庞大的数据集中找到正确的数据至关重要。

 

数据集成和管理:数据湖仓提供了一个统一的平台,支持大量结构化和非结构化数据的存储和管理。这对于训练和优化 AI 模型至关重要。其实除了数据迁移到 Lakehouse,今年,我们还推出了 Lakehouse Federation 的功能,用户可以跨多个数据平台(如 MySQL、PostgreSQL、Snowflake 等)发现、查询和管理数据,无需移动或复制数据,为用户提供了简化和统一的体验。

 

当前,越来越多的公司正在构建自己的 Lakehouse 架构。然而,根据不同需求的技术选型会带来截然不同的效果。对于企业级用户而言,数据安全通常是最优先考虑的问题。在我看来,选择技术平台时,首先应确保平台能够解决数据合规和数据资产安全性问题,其次才是成本控制和性能提升。

 

目前,众多公司正积极构建自己的 Lakehouse 架构。重要的是,技术选择应根据具体需求定制,因为不同的选择将导致不同的成果。对于企业级用户,数据安全无疑是首要关注的领域。在选择技术平台时,首先要确保所选平台能够全面应对数据合规性和数据资产安全性的挑战。此外,成本控制和性能优化也是重要的考量因素,但它们应该在确保数据安全的基础上进行权衡。因此,平衡这些关键要素,选择一个既安全又高效的 Lakehouse 解决方案,对于任何希望在现代数据生态中取得成功的企业来说,都是至关重要的。

 

InfoQ:请展望未来的大数据架构是什么样子(必要组件的演变,一些趋势总结)?

 

李潇:在不久的未来,每个领域的赢家都是那些可以最有效利用数据和 AI 的。事实上,我们坚信对数据和 AI 的深刻理解是每个赢家的必备技能。未来的大数据架构将是一个高度集成、智能化和自动化的系统,它能够有效地处理和分析大量数据,同时简化数据管理和 AI 应用的开发过程,为企业提供竞争优势。

 

未来的大数据架构,我们可以称为“数据智能平台(Data Intelligence Platform)”。它正是顺应了两个主要趋势:数据湖仓(Data Lakehouse)和生成式人工智能(AI)。这一架构建立在数据湖仓的基础上,它提供一个开放、统一的基础,用于所有数据和治理,由一个理解用户数据独特语义的数据智能引擎(Data Intelligence Engine) 驱动。这是相对现有 Lakehouse 架构下的,最大的突破。

 

智能化方面,这个引擎能理解客户数据的独特语义,使平台能自动优化性能和管理基础设施。操作简化方面,自然语言大大简化了用户体验。数据智能引擎理解客户的语言,使搜索和发现新数据就像询问同事一样简单。此外,自然语言还助力编写代码、纠错和寻找答案,加速新数据和应用程序的开发。

 

在隐私保护方面,数据和 AI 应用需要强大的治理和安全措施,尤其是在生成式 AI 的背景下。提供一个端到端的机器学习运维(MLOps)和 AI 开发解决方案,该方案基于统一的治理和安全方法。这允许在不妥协数据隐私和知识产权控制的情况下,实现所有人工智能目标。

 

总的来说,未来的大数据架构将更加重视智能化、操作简化和数据隐私,为企业在数据和 AI 应用方面提供竞争优势。这将使企业能更有效地利用数据,推动创新,同时保护数据安全和发展 AI 技术。

 

更多阅读:

解读数据架构的 2020:开放、融合、简化:https://www.infoq.cn/article/k6Y0wXB7UGIOu2ak85WV

让大模型融入工作的每个环节,数据巨头 Databricks 让生成式 AI 平民化:https://www.infoq.cn/article/EvYEXsLPh8KMkfNrsG7D

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-01-17 10:148523

评论

发布
暂无评论

LigaAI:从效率、度量和价值维度,成为研发团队的智能医生

LigaAI

研发管理 SaaS 研发协作平台 TO B 企业号 7 月 PK 榜

MQTT 与 Kafka|物联网消息与流数据集成实践

EMQ映云科技

kafka 物联网 mqtt 流数据

全面解析JMeter环境变量配置步骤

Liam

程序员 软件测试 测试 Jmeter 测试工具

日增320TB数据,从ClickHouse迁移至ByConity后,查询性能十分稳定!

字节跳动开源

大数据 开源 云原生 Clickhouse 数仓

O-Star | 矩阵起源2023届校招生入职啦~

MatrixOrigin

数据库 云原生 HTAP MatrixOrigin MatrixOne

Ui2Code+ChatGPT助力低代码搭建 | 京东云技术团队

京东科技开发者

低代码 ChatGPT 企业号 7 月 PK 榜 Ui2Code

企业数智化底座赋能国资国企数智监管

用友BIP

数智底座 国资国企

Spring高手之路8——Spring Bean模块装配的艺术:@Import详解

砖业洋__

@Import 模块装配 Import注解 ImportSelector Spring动态装配

低代码技术分享官丨浅谈DevOps实践过程

inBuilder低代码平台

DevOps

抽象语法树AST必知必会 | 京东物流技术团队

京东科技开发者

前端 AST 抽象语法树 企业号 7 月 PK 榜

Nautilus Chain 主网上线,创世 ZBC 质押即将开启

西柚子

标准化,企业财务共享中心的灵魂内核(下)——领先实践分享

用友BIP

财务共享

7.25齐聚西安!助推国资国企建设一流司库管理体系

用友BIP

全球司库 国资国企

Spring高手之路7——事件机制与监听器的全面探索

砖业洋__

spring 观察者模式 事件机制 Spring生命周期 Spring 监听

Spring高手之路9——掌握Spring条件装配的秘密武器

砖业洋__

spring Spring配置 @Profile @Conditional 条件装配

实时社群技术专题(三):百万级成员实时社群技术实现(关系系统篇)

JackJiang

网络编程 即时通讯 IM

Spring高手之路5——彻底掌握Bean的生命周期

砖业洋__

Spring Bean Spring Bean生命周期 @PostConstruct InitializingBean DisposableBean

零基础能学习Java吗,看了这篇文章你就知道!

java易二三

装备制造行业数智人力应从何入手?超实用干货来了!

用友BIP

人力资源

云智慧「智能运维6.0产品发布会」与您相约7.24运维日

云智慧AIOps社区

智能运维 #运维 智能运维AIOps 运维智能化

Spring高手之路4——深度解析Spring内置作用域及其在实践中的应用

砖业洋__

spring Singleton prototype Spring作用域 Spring原型作用域

Centos8 stream系统编译安装Apache教程。

百度搜索:蓝易云

Apache 云计算 Linux centos 运维

一文了解电商大促系统的高可用保障思路 | 京东云技术团队

京东科技开发者

产品 高可用 研发 电商大促 企业号 7 月 PK 榜

关于互联网产业的一些思考

用友BIP

产业互联网

免费又好用的MES系统——万界星空MES系统重磅来袭

万界星空科技

开源

.net core基于HttpClient实现的网络请求库

互联网工科生

.net core http client

绘出「星辰大海」:华为云Astro轻应用新手指南-第二章

华为云PaaS服务小智

云计算 开发者 软件开发 华为云

Centos8 stream系统编译安装MySQL5.7教程。

百度搜索:蓝易云

MySQL 云计算 Linux centos 运维

Spring高手之路6——Bean生命周期的扩展点:BeanPostProcessor

砖业洋__

spring ioc BeanPostProcessor Bean生命周期扩展点 后置处理器

DataArts Studio实践丨通过Rest Client 接口读取RESTful接口数据的能力

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

矩阵起源通过ISO 三大体系认证!

MatrixOrigin

数据库 超融合 HTAP MatrixOrigin MatrixOne

专访李潇:数据智能平台,AI时代的Lakehouse架构_数据湖仓_Tina_InfoQ精选文章