最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

HTAP 为实时数据服务插上翅膀

  • 2021-06-10
  • 本文字数:1576 字

    阅读完需:约 5 分钟

HTAP 为实时数据服务插上翅膀

成为主流趋势的 HTAP


由 Gartner 提出的 HTAP 数据库(混合事务 / 分析处理,Hybrid Transactional/Analytical Processing)成为希望。基于创新的计算存储框架,HTAP 数据库能够在一份数据上同时支撑 OLTP 和 OLAP 场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。


HTAP 数据库基于分布式架构,支持弹性扩容,可按需扩展吞吐或存储,轻松应对高并发、海量数据场景。当下,由 HTAP 数据库提供的实时分析能力已经成为企业的核心竞争力之一。



业务挑战


智慧芽(PatSnap)是一家科技创新情报 SaaS(软件即服务)服务商,聚焦科技创新情报和知识产权信息化服务两大板块,为全球 50 多个国家超 10000 家科技公司、高校、科研与金融机构提供大数据情报服务。在数据源方面,智慧芽已存储了 1.5 亿多个全球专利数据、1.7 亿多个化学结构数据,以及千万级财务新闻、科技文献、市场报告、投资信息等海量数据。


随着业务场景的不断拓展和用户规模的迅速增长,业务运营过程中,智慧芽深度依赖对实时数据的分析和结果呈现,需要进行用户行为分析,提供实时大盘和特定场景的运营数据,对流量和服务的分析也不可或缺。


智慧芽原先采用 Segment 与 Redshift 的数据分析架构,仅构建出了 ODS 层,数据写入的规则和 schema 不受控制,且需要针对 ODS 编写复杂的 ETL,按照业务需求进行各类指标的计算来完成上层业务的数据请求。Redshift 中落库数据量大,计算慢(T+1 时效),影响对外服务的效率。


TiDB + Flink 实时数仓方案


经过多轮选型和对比测试,智慧芽选用 TiDB + Flink 实时数仓方案拓展数据分析架构体系的能力版图。

TiDB HTAP 是一个可扩展的行存和列存整合的架构,在存储上是可以使用分离的不同节点,可以确保 OLTP 和 OLAP 两边互相之间没有干扰,实时性、一致性、可延展性都能得到很好的保证。Flink 是一个低延迟、高吞吐、流批统一的大数据计算引擎,被普遍用于高实时性场景下的实时计算,具有支持 exactly-once 等重要特性。


结合了 TiDB HTAP 与 Flink 两者的特性,TiDB + Flink 的方案优势显而易见:首先是速度有保障,两者都可以通过水平扩展节点来增加算力;其次,TiDB 深度兼容 MySQL 协议,Flink 提供 Flink SQL 和强大的连接器来编写和提交任务,学习和配置成本相对较低。



智慧芽实时数据分析平台架构示意图


替换为基于 TiDB + Kinesis + Flink 构建的实时数仓架构后,不再需要构建 ODS 层。Flink 作为前置计算单元,直接从业务出发构建出 Flink Job ETL,完全控制了落库规则并自定义 schema,即仅把业务关注的指标进行清洗并写入 TiDB 来进行后续的分析查询,写入数据量大幅减少。


按用户/租户、地区、业务动作等关注的指标,结合分钟、小时、天等不同粒度的时间窗口等,在 TiDB 上构建出 DWD/DWS/ADS 层,直接服务业务上的统计、清单等需求,上层应用可直接使用构建好的数据,且获得了秒级的实时能力。


这套实时数据分析平台架构实现了真正意义的 Real Time Data as a Service,目前应用于慧芽用户行为分析和追踪、租户行为分析等实时分析场景,并为业务运营大盘提供实时数据支撑。


应用价值


在使用了新架构后,入库数据量、入库规则和计算复杂度都显著下降,数据在 Flink Job 中已经按照业务需求处理完成并写入 TiDB,无需基于 Redshift 的 全量 ODS 层进行 T+1 ETL。


基于 TiDB 构建的实时数仓,通过合理的数据分层,架构上获得了极大的精简,开发维护也变得更加简单,在数据查询、更新、写入性能上都获得大幅度提升。


在满足不同的 adhoc 分析需求时,不再需要等待类似 Redshift 预编译的过程,易于开发且扩容方便。



头图:Unsplash

作者:PingCAP

原文:https://mp.weixin.qq.com/s/p_hhX_UG2AfOvStaP8Ht0w

原文:TiDB X 智慧芽 | HTAP 为实时数据服务插上翅膀

来源:PingCAP - 微信公众号 [ID:pingcap2015]

转载:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

2021-06-10 08:001529

评论

发布
暂无评论
发现更多内容

用Leangoo领歌Scrum敏捷开发工具管理产品路线图?

顿顿顿

Scrum 敏捷开发 敏捷项目管理 scrum敏捷工具

如何更好的分析潜在人脉?聊聊华为云图引擎GES的Cypher子查询

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 5 月 PK 榜

大模型竞争白热化 这家广州的科技公司却开辟了新战场

科技热闻

云服务器管理用什么软件好?行云管家好用吗?

行云管家

云计算 云服务器 云资源 云管理

复杂推理:大型语言模型的"北极星"能力

OneFlow

顶礼膜拜!阿里内部出品,全网首发Spring Security项目实战搭建

做梦都在改BUG

Java spring spring security Spring Security OAuth

如何解决注册并发问题并提高QPS

北桥苏

队列 并发 Redis 核心技术与实战

定了!AIRIOT新品发布会,6月6日北京见。

AIRIOT

物联网 发布会 产品发布会 直播预约

利用Appuploader上架IPA步骤

雪奈椰子

百人研发团队百亿销售规模的技术架构实践分享

车江毅

2023淘宝天猫金婴奖公布,小度学习机获年度超级新品奖!

科技热闻

上海国家会计学院刘勤:事项法会计支撑企业更好地应对不确定性

用友BIP

从缓存的本质说起,说服技术大佬用Redis

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

阿里巴巴宣布加入Linux Foundation AI&Data基金会,捐赠首个开源项目DeepRec

阿里云大数据AI技术

人工智能 大数据

重磅来袭!豆瓣评分9.2,万人血书的多线程与高并发v2.0版本

做梦都在改BUG

Java 多线程 高并发

创业做共享电动车!如何找厂家合作

共享电单车厂家

共享电动车厂家 共享电单车厂商 共享电单车投放 共享电动车创业项目

关于华为MetaERP,我说几句

SAP虾客

oracle 华为 SAP metaerp

MySQL百万数据深度分页优化思路分析

做梦都在改BUG

Java MySQL 数据库

ChatGPT会对我们日常生活带来什么影响?这些技术会改变我们学习阅读工作方式吗?| 社区征文

汀丶人工智能

人工智能 ChatGPT 人工智能ChatGPT 吗? 三周年征文

如何使用apache的ab压力测试小工具传参数

北桥苏

ab测试 A/B 测试

ShareSDK 创建应用

MobTech袤博科技

NGINX 和 HAProxy:基于公有云标准环境的用户体验测试对比

NGINX开源社区

nginx 公有云 HAProxy

小程序的安全架构解析

Onegun

小程序 安全 小程序容器 小程序架构

PAG动效框架源码笔记 (一)概览

olinone

ios Android; 特效

AI会对我们日常生活带来什么影响?这些技术会改变我们学习阅读工作方式吗?| 社区征文

汀丶人工智能

人工智能 ChatGPT 人工智能ChatGPT 吗? 三周年征文

共识算法之Raft算法模拟数

TiAmo

算法 共识算法 模拟数

SET智能合约量化系统app开发案例

薇電13242772558

合约量化 量化交易

给大家推荐一款CRMEB_Java新零售社交电商系统

CRMEB

来这公司一年碰到的问题比我过去10年都多

艾小仙

Java kafka spring spring-boot

SpringBoot 结合 Liquibase 实现数据库变更管理

做梦都在改BUG

Java spring Liquibase

GPT:低代码的终局性机遇

小博

人工智能 低代码 PaaS GPT

HTAP 为实时数据服务插上翅膀_语言 & 开发_PingCAP技术团队_InfoQ精选文章