写点什么

计算范式巨变前夜,云器发布多云及一体化数据平台云器 Lakehouse

  • 2023-07-21
    北京
  • 本文字数:3484 字

    阅读完需:约 11 分钟

计算范式巨变前夜,云器发布多云及一体化数据平台云器 Lakehouse

数据已成为推动企业、行业、产业发展的巨大推动力。作为“数据价值提炼者”,数据平台是企业数据体系的关键一环,帮助企业优化数据管理、提供数据分析决策建议,更快实现数据资产化。


从互联网到云再到大模型,一波波技术创新浪潮背后是指数级上涨的数据量,让企业在构建数据平台时需要投入更多的人力成本、时间成本和财务成本,才能跟上业务发展的需求。然而,数据平台架构复杂度高、人力成本高,让企业数据价值最大化、数字化转型进程遇到了瓶颈。数据平台如何降低使用技术门槛、降低企业运营成本,加速数据分析创造更大数据价值是平台从业者面临的核心问题。


7 月 20 日,云器科技举行首次对外的产品发布会,首次推出新一代“多云、一体化”的数据平台云器 Lakehouse,提出增量计算新范式,并基于增量计算构建 “Single-Engine”一体化平台,在湖仓架构之上,实现批、流、交互三种分析模式的统一。为企业提供开箱即用、高性能、低成本的数据平台,帮助企业真正让数据变为生产力,向科技型数字化企业转型。InfoQ 作为战略合作媒体支持了本次发布会的落地。


随着技术不断成熟,一体化、更简单、免运维的商业化数据平台服务已成为企业的主流选择。海外大数据行业的代表企业之一,Snowflake 既是以多云独立、一体化的数据平台和 SaaS 化的业务模式在全球广受认可。由于技术生态、用户生态和市场环境的差异性,国内关于“中国版 Snowflake”的呼声一直存在,云器 Lakehouse 希望成为“中国版 Snowflake”,面向企业需求,以多云独立的一体化 SaaS 化服务,填补国内市场的空白。



云器科技创始人 &CEO 喻思成表示:“多云、一体化是数据架构演进的必然方向。普惠、极致简单、极致弹性的数据平台是当下企业的共性需求。云器科技以‘改变数据的使用方式’为使命,聚集了业内专家成员,历时两年推出完全自主研发的云器 Lakehouse,帮助企业级数字原生客户更灵活、更高效、更安全、更经济地发挥数据的价值。”

打破 Lambda 架构,Single-Engine 统一“离线、实时和交互分析”


大数据的快速发展根源于以 Hadoop 为核心的开源技术。行业早期,因技术生态还未足够成熟,企业往往选择组合不同的开源组件自建数据平台,通常使用 Lambda 架构。



但是,组装式 Lambda 架构一直存在 四大问题亟待解决:

第一,不同组件开发语言不通,带来较高开发门槛,对开发人员不够友好;

第二,多组件,多套元数据,带来大量的计算和存储冗余;

第三,多组件架构复杂,带来极高的运维成本;

第四,缺乏满足业务变化的灵活性。


这些问题困扰业界多年,很多产品和企业也尝试解决这些问题。由于流处理和批处理的计算模型、数据驱动方式以及存储系统设计均不同;批处理和交互分析的计算模型、存储模型、调度模型、资源模型也不同。因此,企业想要统一离线、实时和交互分析变得尤为困难。


基于增量计算新范式的 Single-Engine 数据平台统一流、批、交互三种计算模式


云器科技联合创始人兼 CTO 关涛表示:由于流、批、交互三种计算引擎的计算模型、数据驱动方式、存储系统设计、调度系统设计、资源模型等均不相同。他们都很难覆盖另外两个场景。统一三种计算模式,需要一个新的计算范式,我们提出‘增量计算’。



增量计算指的是将所有计算抽象成增量的形态,实现数据的一次计算、累次使用,节省计算资源同时,能提供灵活调整的“增量时间间隔”,达成批处理或者流处理效果的服务。



“如果将增量时间间隔调整为 0,数据平台将提供实时计算;如果调多增量时间间隔,数据平台将实现离线批处理。”关涛解释道。企业不再需要使用单独的流式开发语言编写增量处理的复杂业务逻辑,复用离线数据加工的处理逻辑即可构建实时任务。

新范式平衡“数据不可能三角”,将控制权交回给企业自己 


云器科技联合创始人兼 CTO 关涛表示:”Single-Engine 的核心使用‘增量计算’的新计算范式,在数据新鲜度、查询性能和成本的‘数据不可能三角’上支持多种平衡点,做到了把平衡的控制权交回给企业自己。”



同时,在云器 Lakehouse 数据架构中,底层的湖仓平台真正实现了数据湖和数据仓库的融合(湖仓一体),所有的结构化、非结构化数据统一存储在湖仓架构中,只存一份数据;同时为了支持上层增量计算形态,云器在 Lakehouse 基础上实现了增量存储能力,最终数据底盘实现为“具备增量存储能力的 Lakehouse”。


云器 Lakehouse 的 Single-Engine 核心引擎已经展现了卓越的性能。



在批处理和实时分析场景上,云器 Lakehouse 在多种标准 benchmark 上比主流开源和商业产品快 3-9 倍。



流式计算方面,在 Process、Aggregate、单流 Join 和双流 Join 四种主流场景下,云器 Lakehouse 相比开源流系统 Apache Flink 做到了更灵活的调节能力,并在近实时场景下,比 Flink 有 10 倍—1000 倍的成本节省。

多云、一体化的数据平台帮助企业做到数据使用更简单



云器 Lakehouse 在湖仓一体和 Single-Engine 的基础上,基于弹性虚拟计算(Virtual Cluster)支持离在线的一体化分析,可以实现开箱即用、秒级弹性资源、按量付费。


Single-Engine 一体化设计,发挥了一体化数据平台的“自适应”特性,可以按企业所需支持各阶段的企业级数据应用,替代多种开源组合技术组件,包括常见的 Spark/Presto/Flink/Clickhouse 的平替方案,对初创型企业非常友好。



云器科技联合创始人兼 CPO 七良表示:“一体化是共识的方向,云器选择了自研 Single-Engine 的方式,独特之处在于可以更好地帮助企业平衡:性能、成本、数据新鲜度。使得平台架构和使用更简单。”

一体化数据平台,帮助企业实现 BI 与 AI 共生


云器科技联合创始人兼 CPO 七良表示:“数据不仅仅只是为了 BI 分析。同一份数据能够同时服务于 BI+AI,实现 BI+AI 共生,是云器做 Lakehouse 产品的初心。


以出行场景为例,出行导航的路况是利用历史路况信息(结构化的数据)+ 车辆轨迹点数据(实时半结构化数据)结合生成的。在车辆少、探测车辆行为异常的道路上,信息不准确的情况一旦出现,车企可以通过行业情报数据比如实时路况图片,通过 AI 模型分析这些非结构化数据,增强已有路况数据的准确性。


云器 Lakehouse 还集成优化了 AI 能力以优化数据链路和降低数据平台使用门槛。当前,行业内存在一个明显的痛点是用户建模和分析业务本身仍然非常复杂,现有的优化方案中依然有大量的人工工作,优化程度远远不够。


因此,在 AI 已经成为计算领域一等公民的今天,云器科技探索推动一个 AI4D(AI for Data)的新方向,通过平台自主学习数据和负载的特性,做基于算法和 AI 的自动化调整,来满足多变的业务需求,让每一位企业人员都能低门槛使用数据平台。AI4D (AI for Data)指的是基于 Learning based 方法和 AI 算法的平台优化方向



关涛认为:“数据平台能否支持好 AI、并利用好 AI,已经成为衡量新一代数据平台的新标准。”


如今,云器 Lakehouse AI4D 已经实现:打破基于专家经验的优化,利用数据分析,机器学习和 AI 算法优化数据平台;在数据建模场景上,通过 AI“学习”整条 pipeline 和一段时间的历史查询情况,实现自动 MV 抽取,自动预计算,自动性能 / 成本的平衡。


云器使用 AI4D 技术,在标准数据集测试得到了 ~16% 的总资源节省,如通过 MV 转预计算,查询时提升 30%~ 4 倍的性能收益。


在实际客户的数据集中,测试达到了 40% 的资源消耗降低和预计 3 倍的查询性能提升。

云器 Lakehouse 使用体验


星盘起航技术总监欧振聪表示:“作为一家数据原生 SaaS 企业,可能会有人奇怪为什么我们会选择和云器合作。实际上,作为一家初创企业,我们需要根据业务的快节奏灵活、及时调整数据架构,而云器 Lakehouse 一体化数据平台,让我们不必根据不同业务需求比对、整合多家技术产品,很大程度上节省了我们的精力和成本。此外,云器团队高度响应我们业务需求,让我们有限的人员完全投入到业务中。”


作为一家 SaaS 企业的前端技术 & 新技术总监,刘冠邦表示:“云器 Lakehouse 的 AI4D 的能力,可以自动把这历史任务中的大量相同的计算子集优化成共用的 mv,并在之后的任务中直接通过 mv 来获取结果,不再运算每一个 query,最终实现了 2.1 倍 CPU 消耗成本的降低和 5.9 倍的平均任务延迟的缩短,大幅度加速了计算过程并降低了成本消耗,提高了我们公司整体业务流转的效率。”

Single Engine · All Data


“在购买和自建中一旦选择自建,客户的要求必定是用最简单的方式做交付,这是商品化世界的规律。所以我们要 Single Engine · All Data,把复杂留给云器,把简单留给客户。”云器科技创始人 &CEO 喻思成强调。


发布会最后,喻思成宣布云器 Lakehouse 产品试用申请通道正式开启,欢迎企业前往云器科技官网( https://www.yunqi.tech)提交使用申请。

2023-07-21 16:216159

评论

发布
暂无评论
发现更多内容

打造一款属于我的在线加密实验室 —— CodeBuddy 实现 CryptoXLab 项目实录

繁依Fanyi

借助 CodeBuddy,我轻松打造了图像滤镜工厂

繁依Fanyi

模型蒸馏:“学神”老师教出“学霸”学生

Baihai IDP

程序员 AI LLM 模型蒸馏

【线下沙龙】NineData x Apache Doris x 阿里云联合举办数据库技术Meetup,5月24日深圳见!

NineData

阿里云 Doris NineData 数据实时分析 数据同步迁移

《算法导论(第4版)》阅读笔记:p95-p100

codists

算法

火山引擎引领“AI+视频云”融合创新,开启智能视频新时代

新消费日报

区块链DApp的开发技术方案

北京木奇移动技术有限公司

dapp开发 区块链开发 软件外包公司

等保测评流程

黑龙江陆陆信息测评部

淘宝商品列表API接口攻略(附代码示例)

tbapi

淘宝API接口 天猫API接口 淘宝商品列表接口 天猫商品列表接口

联通智家通通:聚四方守护之力,筑万家AI通途

脑极体

AI

打卡习惯,记录坚持:我用 CodeBuddy 做了个毛玻璃风格的习惯打卡小应用

繁依Fanyi

一次对话,让我10分钟打造一款拥有玻璃拟态风格的二维码生成大师

繁依Fanyi

借助 CodeBuddy,我见证了一款在线代码格式化神器的诞生

繁依Fanyi

我的 PDF 工具箱:CodeBuddy 打造 PDFMagician 的全过程记录

繁依Fanyi

「10秒发现,5分钟定位」- 阿里云EMAS应用监控引领全链路智能监控新时代

移动研发平台EMAS

监控 崩溃分析 应用性能监控产品 应用监控 应用性能监控

AI 大模型入门 四:检索增强生成(RAG),自动生成精准用例!

测试人

软件测试

Coze扣子文档解析 VS. 专业OCR工具,RAG知识库性能评测!

合合技术团队

人工智能 OCR #大数据 文档解析

DApp开发的技术架构

北京木奇移动技术有限公司

dapp开发 区块链开发 软件外包公司

融云上线智能回复助手,可丝滑融入业务流的 IM+AI 能力

融云 RongCloud

淘宝图片搜索API秘籍!轻松获取相似商品数据

tbapi

淘宝API 淘宝图片搜索接口 淘宝图片搜索API 天猫图片搜索接口 淘宝图片api

融云 uni-app IMKit 上线,1 天集成,多端畅行

融云 RongCloud

如何基于ThinkPHP快速搭建婚恋交友小程序?相亲婚恋app源码架构详解

DUOKE七七

DApp开发的主要框架

北京木奇移动技术有限公司

dapp开发 区块链开发 软件外包公司

「今日一句」情绪签语 App:一次与 CodeBuddy 的共创之旅

繁依Fanyi

基于亚马逊云科技构建音视频直播审核方案

亚马逊云科技 (Amazon Web Services)

华为邀您相聚KubeCon China 2025,共绘云原生新一个十年

华为云原生团队

云计算 容器 云原生

CST软件的IC封装的RLC提取以及等效电路

思茂信息

cst CST软件 CST Studio Suite

我如何和 CodeBuddy 搭建「Gradia」渐变配色神器 —— 一场流动色彩的创造之旅

繁依Fanyi

2025杭州人形机器人展会|加快推动人形机器人产业创新发展

AIOTE智博会

机器人展 智能机器人展 人形机器人展

区块链DApp的开发流程

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

年会抽奖不求人:用 CodeBuddy 快速打造炫酷抽奖助手,老板直呼专业!

不惑

CodeBuddy

计算范式巨变前夜,云器发布多云及一体化数据平台云器 Lakehouse_数据湖仓_InfoQ编辑部_InfoQ精选文章