NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

HTAP 为实时数据服务插上翅膀

  • 2021-06-10
  • 本文字数:1576 字

    阅读完需:约 5 分钟

HTAP 为实时数据服务插上翅膀

成为主流趋势的 HTAP


由 Gartner 提出的 HTAP 数据库(混合事务 / 分析处理,Hybrid Transactional/Analytical Processing)成为希望。基于创新的计算存储框架,HTAP 数据库能够在一份数据上同时支撑 OLTP 和 OLAP 场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。


HTAP 数据库基于分布式架构,支持弹性扩容,可按需扩展吞吐或存储,轻松应对高并发、海量数据场景。当下,由 HTAP 数据库提供的实时分析能力已经成为企业的核心竞争力之一。



业务挑战


智慧芽(PatSnap)是一家科技创新情报 SaaS(软件即服务)服务商,聚焦科技创新情报和知识产权信息化服务两大板块,为全球 50 多个国家超 10000 家科技公司、高校、科研与金融机构提供大数据情报服务。在数据源方面,智慧芽已存储了 1.5 亿多个全球专利数据、1.7 亿多个化学结构数据,以及千万级财务新闻、科技文献、市场报告、投资信息等海量数据。


随着业务场景的不断拓展和用户规模的迅速增长,业务运营过程中,智慧芽深度依赖对实时数据的分析和结果呈现,需要进行用户行为分析,提供实时大盘和特定场景的运营数据,对流量和服务的分析也不可或缺。


智慧芽原先采用 Segment 与 Redshift 的数据分析架构,仅构建出了 ODS 层,数据写入的规则和 schema 不受控制,且需要针对 ODS 编写复杂的 ETL,按照业务需求进行各类指标的计算来完成上层业务的数据请求。Redshift 中落库数据量大,计算慢(T+1 时效),影响对外服务的效率。


TiDB + Flink 实时数仓方案


经过多轮选型和对比测试,智慧芽选用 TiDB + Flink 实时数仓方案拓展数据分析架构体系的能力版图。

TiDB HTAP 是一个可扩展的行存和列存整合的架构,在存储上是可以使用分离的不同节点,可以确保 OLTP 和 OLAP 两边互相之间没有干扰,实时性、一致性、可延展性都能得到很好的保证。Flink 是一个低延迟、高吞吐、流批统一的大数据计算引擎,被普遍用于高实时性场景下的实时计算,具有支持 exactly-once 等重要特性。


结合了 TiDB HTAP 与 Flink 两者的特性,TiDB + Flink 的方案优势显而易见:首先是速度有保障,两者都可以通过水平扩展节点来增加算力;其次,TiDB 深度兼容 MySQL 协议,Flink 提供 Flink SQL 和强大的连接器来编写和提交任务,学习和配置成本相对较低。



智慧芽实时数据分析平台架构示意图


替换为基于 TiDB + Kinesis + Flink 构建的实时数仓架构后,不再需要构建 ODS 层。Flink 作为前置计算单元,直接从业务出发构建出 Flink Job ETL,完全控制了落库规则并自定义 schema,即仅把业务关注的指标进行清洗并写入 TiDB 来进行后续的分析查询,写入数据量大幅减少。


按用户/租户、地区、业务动作等关注的指标,结合分钟、小时、天等不同粒度的时间窗口等,在 TiDB 上构建出 DWD/DWS/ADS 层,直接服务业务上的统计、清单等需求,上层应用可直接使用构建好的数据,且获得了秒级的实时能力。


这套实时数据分析平台架构实现了真正意义的 Real Time Data as a Service,目前应用于慧芽用户行为分析和追踪、租户行为分析等实时分析场景,并为业务运营大盘提供实时数据支撑。


应用价值


在使用了新架构后,入库数据量、入库规则和计算复杂度都显著下降,数据在 Flink Job 中已经按照业务需求处理完成并写入 TiDB,无需基于 Redshift 的 全量 ODS 层进行 T+1 ETL。


基于 TiDB 构建的实时数仓,通过合理的数据分层,架构上获得了极大的精简,开发维护也变得更加简单,在数据查询、更新、写入性能上都获得大幅度提升。


在满足不同的 adhoc 分析需求时,不再需要等待类似 Redshift 预编译的过程,易于开发且扩容方便。



头图:Unsplash

作者:PingCAP

原文:https://mp.weixin.qq.com/s/p_hhX_UG2AfOvStaP8Ht0w

原文:TiDB X 智慧芽 | HTAP 为实时数据服务插上翅膀

来源:PingCAP - 微信公众号 [ID:pingcap2015]

转载:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

2021-06-10 08:001533

评论

发布
暂无评论
发现更多内容

透过数据看世界,打开AIGC的天窗——TE产服为AIGC新商业而来

TE智库

人工智能 openai AIGC 生成式AI

向量数据库的行业标准逐渐清晰!Vector DB Bench 正式开源!

Zilliz

非结构化数据 测试工具 Milvus 向量数据库 zillizcloud

在AIGC魔法世界里,你是麻瓜吗?

白洞计划

AIGC

用友BIP全球司库十问之大型企业如何管好资金预算?

用友BIP

全球司库

在AIGC魔法世界里,你是麻瓜吗?

脑极体

AI

商业版数据库断供风险愈发扩大,浅谈GaussDB与国内企业的应对方式

轶天下事

基于STM32的智能饮水机系统设计

DS小龙哥

6 月 优质更文活动

人生三借、成就伟业

科技热闻

ChatGPT在前,华为盘古Chat在后

这我可不懂

人工智能 华为 ChatGPT

开发者聚焦 | 不容错过的开发者新专栏就要来啦!

亚马逊云科技 (Amazon Web Services)

亚马逊云科技

IT知识百科:什么是计算机蠕虫?

wljslmz

计算机蠕虫 6 月 优质更文活动

Golden Gate’s (GGX) : 通过多方计算实现跨链一体化

股市老人

谁是蔡崇信?|耶鲁大学QA

B Impact

Wallys/wifi 6 router ipq8072 enterprise wireless dual band /support wifi6e card

Cindy-wallys

IPQ8072

科勒亮相设计上海2023,全方位打造敢创艺术空间

科技热闻

实现10倍提升!昇思MindSpore SPONGE套件助力核磁共振蛋白质动态结构解析加速

彭飞

昇思 昇思MindSpore

华为云GaussDB:为企业提供智能、高效、安全的数据库解决方案

轶天下事

以创新驱动增长,百度营销助力成人教育机构迎战金秋季

科技热闻

MySQL一个关于derived table的bug描述与规避

GreatSQL

谁是远程界的天花板?2023年5款最常用的远程软件横测:ToDesk、向日葵、TeamViewer、Splashtop、AnyDesk

dvlinker

向日葵 远程软件 ToDesk TeamViewer AnyDesk

以GaussDB举例,浅谈商业版数据库的断供风险以及国产数据库的重要性

轶天下事

科创西安:秦创原·信创人才培养暨鸿蒙生态产教融合发展论坛举行

坚果

OpenHarmony 6 月 优质更文活动

科勒携多款重磅产品惊艳亮相第27届中国国际厨卫展

科技热闻

检测客户端访问设备的一种新方法

为自己带盐

.net core 设备检测

SAP UI5 OData 谣言粉碎机:极短时间内发送两个 Odata 请求,前一个会自动被 cancel 掉吗

Jerry Wang

SAP OData ui5 思爱普 6 月 优质更文活动

2023-06-20:给定一个长度为N的数组arr,arr[i]表示宝石的价值 你在某天遇到X价值的宝石, X价值如果是所有剩余宝石价值中的最小值,你会将该宝石送人 X价值如果不是所有剩余宝石价值中的

福大大架构师每日一题

Go rust 算法、 福大大架构师每日一题

华为云数据库GaussDB,无惧“卡脖子”,给世界一个更优选择

轶天下事

第四课 设计千万级学生管理系统考试试卷存储方案

家有两宝

架构训练营

SUFS: 存储资源使用量预测服务

KaiwuDB

KaiwuDB 存储资源使用量预测

C语言编程语法—利用栈实现对后缀表达式的求解

智趣匠

C语言 6 月 优质更文活动

【TypeScript】TS条件类型

不叫猫先生

typescript 6 月 优质更文活动

HTAP 为实时数据服务插上翅膀_语言 & 开发_PingCAP技术团队_InfoQ精选文章