【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

腾讯大数据平台纵览

  • 2014-08-20
  • 本文字数:3135 字

    阅读完需:约 10 分钟

腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时候,如何从大数据中获取高价值,已经成为大家关心的焦点问题。在这样的大背景下,为了公司各业务产品能够使用更丰富优质的数据服务,近年腾讯大数据平台得到迅猛发展。

从上图可以看出,腾讯大数据平台有如下核心模块:TDW、TRC、TDBank 和 Gaia。简单来说,TDW 用来做批量的离线计算,TRC 负责做流式的实时计算,TDBank 则作为统一的数据采集入口,而底层的 Gaia 则负责整个集群的资源调度和管理。接下来,本文会针对这四块内容进行整体介绍。

TDW(Tencent distributed Data Warehouse):腾讯分布式数据仓库。它支持百 PB 级数据的离线存储和计算,为业务提供海量、高效、稳定的大数据平台支撑和决策支持。目前,TDW 集群总设备 8400 台,单集群最大规模 5600 台 ,总存储数据超过 100PB,日均计算量超过 5PB,日均 Job 数达到 100 万个。

为了降低用户从传统商业数据库迁移门槛,TDW 基于开源 Hive 进行了大量定制开发。在功能扩充方面,SQL 语法兼容 Oracle,实现了基于角色的权限管理、分区功能、窗口函数、多维分析功能、公用表表达式 -CTE、DML-update/delete、入库数据校验等。在易用性方面,增加了基于 Python 的过程语言接口,以及命令行工具 PLClient,并提供可视化的 IDE 集成开发环境,使得开发效率大幅度提升。另外,在性能优化方面也做了大量工作,包括 Hash Join、按行 split、Order by limit 优化、查询计划并行优化等,特别是针对 Hive 元数据的重构,去掉了低效的 JDO 层,并实现元数据集群化,使系统扩展性提升明显。

为了尽可能促进数据共享和提升计算资源利用率,实施构建高效稳定的大集群战略,TDW 针对 Hadoop 原有架构进行了深度改造。首先,通过 JobTracker/NameNode 分散化和容灾,解决了 Master 单点问题,使得集群的可扩展性和稳定性得到大幅度提升。其次,优化公平资源调度策略,以支撑上千并发 job(现网 3k+)同时运行,并且归属不同业务的任务之间不会互相影响。同时,根据数据使用频率实施差异化压缩策略,比如热数据 lzo、温数据 gz、冷数据 gz+hdfs raid,总压缩率相对文本可以达到 10-20 倍。

另外,为了弥补 Hadoop 天然在 update/delete 操作上的不足,TDW 引入 PostgreSQL 作为辅助,适用于较小数据集的高效分析。当前,TDW 正在向着实时化发展,通过引入 HBase 提供了千亿级实时查询服务,并开始投入 Spark 研发为大数据分析加速。

TDBank(Tencent Data Bank):数据实时收集与分发平台。构建数据源和数据处理系统间的桥梁,将数据处理系统同数据源解耦,为离线计算 TDW 和在线计算 TRC 平台提供数据支持。

从架构上来看,TBank 可以划分为前端采集、消息接入、消息存储和消息分拣等模块。前端模块主要针对各种数据形式(普通文件,DB 增量 / 全量,Socket 消息,共享内存等)提供实时采集组件,提供了主动且实时的数据获取方式。中间模块则是具备日接入量万亿级的基于“发布 - 订阅”模型的分布式消息中间件,它起到了很好的缓存和缓冲作用,避免了因后端系统繁忙或故障从而导致的处理阻塞或消息丢失。针对不同应用场景,TDBank 提供数据的主动订阅模式,以及不同的数据分发支持(分发到 TDW 数据仓库,文件,DB,HBase,Socket 等)。整个数据通路透明化,只需简单配置,即可实现一点接入,整个大数据平台可用。

另外,为了减少大量数据进行跨城网络传输,TDBank 在数据传输的过程中进行数据压缩,并提供公网 / 内网自动识别模式,极大的降低了专线带宽成本。为了保障数据的完整性,TDBank 提供定制化的失败重发和滤重机制,保障在复杂网络情况下数据的高可用。TDBank 基于流式的数据处理过程,保障了数据的实时性,为 TRC 实时计算平台提供实时的数据支持。目前,TDBank 实时采集的数据超过 150+TB/ 日(约 5000+ 亿条 / 日),这个数字一直在持续增长中,预计年底将超过 2 万亿条 / 日。

TRC(Tencent Real-time Computing):腾讯实时计算平台。作为海量数据处理的另一利器,专门为对时间延敏感的业务提供海量数据实时处理服务。通过海量数据的实时采集、实时计算,实时感知外界变化,从事件发生、到感知变化、到输出计算结果,整个过程中秒级完成。

TRC 是基于开源的 Storm 深度定制的流式处理引擎,用 Java 重写了 Storm 的核心代码。为了解决了资源利用率和集群规模的问题,重构了底层调度模块,实现了任务级别的权限管理、资源分配、资源隔离,通过和 Gaia 这样的资源管理框架相结合,做到了根据线上业务实际利用资源的状况,动态扩容 & 缩容,单集群轻松超过 1000 台规模。为了提高平台的易用性和可运维性,提供了类 SQL 和 Pig Latin 这样的过程化语言扩展,方便用户提交业务,提升接入效率,同时提供系统级的指标度量,支持用户代码对其扩展,实时监控整个系统运营环节。另外将 TRC 的功能服务化,通过 REST API 提供 PaaS 级别的开放,用户无需了解底层实现细节就能方便的申请权限,资源和提交任务。

目前,TRC 日计算次数超过 2 万亿次,在腾讯已经有很多业务正在使用 TRC 提供的实时数据处理服务。比如,对于广点通广告推荐而言,用户在互联网上的行为能实时的影响其广告推送内容,在用户下一次刷新页面时,就提供给用户精准的广告;对于在线视频,新闻而言,用户的每一次收藏、点击、浏览行为,都能被快速的归入他的个人模型中,立刻修正视频和新闻推荐。

Gaia统一资源调度平台。Gaia,希腊神话中的大地之神,是众神之母,取名寓意各种业务类型和计算框架都能植根于“大地”之上。它能够让应用开发者像使用一台超级计算机一样使用整个集群,极大地简化了开发者的资源管理逻辑。Gaia 提供高并发任务调度和资源管理,实现集群资源共享,具有很高的可伸缩性和可靠性,它不仅支持 MR 等离线业务,还可以支持实时计算,甚至在线 service 业务。

为了支撑单集群 8800 台甚至更大规模,Gaia 基于开源社区 Yarn 之上自研 Sfair (Scalable fair scheduler) 调度器,优化调度逻辑,提供更好的可扩展性,并进一步增强调度的公平性,提升可定制化,将调度吞吐提升 10 倍以上。为了满足上层多样化的计算框架稳定运行,Gaia 除了 CPU、Mem 的资源管理之外,新增了 Network IO,Disk space,Disk IO 等资源管理维度,提高了隔离性,为业务提供了更好的资源保证和隔离。同时,Gaia 开发了自己的内核版本,调整和优化 CPU、Mem 资源管理策略,在兼容线程监控的前提下,利用 cgroups,实现了 hardlimit+softlimit 结合的方式,充分利用整机资源,将 container oom kill 机率大幅降低。另外,丰富的 API 也为业务提供了更便捷的容灾、扩容、缩容、升级等方式。

基于以上几大基础平台的组合联动,可以打造出了很多的数据产品及服务,如上面提到的精准推荐就是其中之一,另外还有诸如实时多维分析、秒级监控、腾讯分析、信鸽等等。除了一些相对成熟的平台之外,我们还在进行不断的尝试,针对新的需求进行更合理的技术探索,如更快速的交互式分析、针对复杂关系链的图式计算。此外,腾讯大数据平台的各种能力及服务,还将通过 TOD(Tencent Open Data)产品开放给外部第三方开发者。

作者简介

刘煜宏(ehomeliu):拥有 10 年以上的电信行业及互联网行业的从业经验,现就职于腾讯数据平台部,是腾讯实时数据接入平台(TDBank)及实时计算平台(TRC)的负责人,在大数据接入、计算及分析等方面有丰富经验。


感谢包研对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2014-08-20 23:0913035

评论 1 条评论

发布
用户头像
请问如何保证在开发阶段环境的稳定性,和新功能发布时系统的的正确性校验,我们公司的大数据系统,每次业务新需求昨晚进入测试阶段,整个系统各个专题和平台都在发布,系统时不时的出现各种问题
2019-06-27 09:00
回复
没有更多了
发现更多内容

ps 2023 v24.6beta激活版下载 支持AI功能

Rose

Photoshop 2023下载 PS测试版下载 FireflyAI

植物大战僵尸mac版下载

Rose

植物大战僵尸 mac 植物大战僵尸中文版 植物大战僵尸下载 mac塔防游戏

如何在大学校园内合作运营共享电单车

共享电单车厂家

校内共享电单车 共享电动车投放 共享电单车合作 共享电单车厂家

乘云而上,山西软件行业CXO思享会在晋起航

说山水

鲲鹏DevKit助力通付盾Web应用防火墙产品开发,性能提升45%+

说山水

Waves 14 Complete(Waves混音效果全套插件)安装激活教程

Rose

Waves 14破解教程 Waves 下载 Waves 14 最新版 Waves混音效果全套插件

支持M1的苹果电脑视频下载器-Downie 4 Mac中文版

Rose

Mac 视频下载工具 Downie 4许可证 Downie 4中文版 Downie mac破解版

Android File Transfer for mac(强大的安卓文件传输工具)

Rose

安卓文件传输工具 Android File Transfer Android和mac互通

鲲鹏DevKit助力深圳财富趋势高效开发行情分析系统,行情揭示快人一步

说山水

一文回顾 Boundless Hackathon at Stanford 首期 Workshop

BlockChain先知

自媒体行业红利衰退,大部分自媒体作者将生存艰难

石头IT视角

Django笔记四十之运行Django环境的python脚本

Hunter熊

Python django 脚本

C语言编程-结构体

攻城狮Wayne

数组 函数参数 6 月 优质更文活动

FC红白机游戏600合集 for mac(小霸王游戏) 单机离线版

Rose

Mac游戏下载 FC 红白机游戏 任天堂游戏下载 小霸王游戏

挖掘算力产业的创新力量和新型机遇|2023开放原子全球开源峰会先进计算分论坛即将启幕

开放原子开源基金会

开源 算力 先进计算

鲲鹏DevKit助力海通证券高效开发互联网行情系统,性能提升26%

说山水

模块二:微信朋友圈高性能复杂度

家有两宝

架构实战营 微信朋友圈高性能复杂度

Waves 14 Complete Mac激活最新版(Waves混音效果全套插件) v31.05.2023

真大的脸盆

Mac 软件 Waves 14破解教程 混音软件 混音套件 waves

鲲鹏DevKit助力南京信息工程大学高效开发

说山水

Photoshop2023beta常见问题|ps 2023测试版智能AI功能不能用如何解决?

Rose

Photoshop2023beta FireflyAI

abaqus有限元仿真常见问题(一):数值仿真在产品研发中的作用

思茂信息

CAE abaqus abaqus软件 abaqus有限元仿真

mac电脑如何远程控制win?微软远程桌面连接工具来帮你!

Rose

Mac远程控制软件 mac电脑如何远程控制win microsoft remote desktop 微软远程桌面连接工具

华为教育中心:奇趣“童”行庆六一 多彩儿童应用助成长

科技热闻

一文回顾 Boundless Hackathon at Stanford 首期 Workshop

股市老人

AI实战营第二期_OpenMMLab概述

IT蜗壳-Tango

OpenMMLab

2023 重新开始

HoneyMoose

又是供应链安全:GUAC项目0.1版释出

sender_is_sender

网络安全 开源软件 供应链安全 GUAC

解锁软件工程新角色——平台工程师

SEAL安全

DevOps 平台工程 平台工程师

Java 致命错误: 在类路径或引导类路径中找不到程序包 java.lang

Andy

一文回顾 Boundless Hackathon at Stanford 首期 Workshop

EOSdreamer111

Qcon 广州主题演讲:融云实时社区的海量消息分发实践

融云 RongCloud

通信 IM 社交 融云 Discord

腾讯大数据平台纵览_服务革新_刘煜宏_InfoQ精选文章