写点什么

从引进到自研,腾讯大数据平台每日数据计算量超 30 万亿

  • 2019-11-11
  • 本文字数:2049 字

    阅读完需:约 7 分钟

从引进到自研,腾讯大数据平台每日数据计算量超30万亿

在 11 月 6 日召开的 Techo 开发者大会上,腾讯云副总裁、腾讯数据平台部总经理蒋杰博士正式对外披露腾讯大数据平台 10 年技术演进历程。经过 10 年的积累,腾讯大数据平台的算力资源池目前已有超过 20 万台的规模,每天实时数据计算量超过 30 万亿条,腾讯已经成为中国实时数据计算量最大的公司。并且,随着资源管理平台核心 TKE 和分布式数据库 TBase 正式对外开源,腾讯正在成为大数据领域开源最全面的公司。



腾讯云副总裁、腾讯数据平台部总经理蒋杰


作为全球最大的互联网公司之一,腾讯的数据量在短短 5、6 年时间增长了几千倍,目前每天产生的数据量超过几十万亿条数据在产生。为了应对这种爆炸式增长,腾讯走出了一条技术引进+改造+自研的道路。经过长达十年的不断升级和完善,腾讯大数据平台已经经历了四代演进。针对最新的大数据和人工智能技术发展趋势,腾讯正在下一代计算平台中,探索批流融合、ABC 融合以及数据湖和联邦学习等前沿技术。

十年四次升级 建立“大数据+AI”双引擎技术架构

腾讯内部目前有超过 100 万台服务器,腾讯云联合所有业务部门,利用业务空闲资源打造一套算力共享平台,该算力弹性资源池有 20 万的规模,大数据平台每天有 1500 万的分析任务、30 万亿次的实时计算量,并且每天数据接入条数达 35 万亿条数据。此外,腾讯云的分布式机器学习平台,能支撑 1 万亿维度的数据训练。


能支撑如此大规模数据的接入和运算,是腾讯在大数据技术领域超过 10 年的积累,其核心的大数据平台已经完成了三次迭代。从以 Hadoop 为核心的离线计算时代到以 Spark、Storm、Flink 为核心的实时计算时代,再到如今的机器学习和深度学习时代,腾讯从无到有研发了分布式的机器学习引擎 Angel,以及一站式 AI 开发平台智能钛 TI,用来解决数据训练和算法的问题。目前,腾讯正在研究以批流融合、ABC 融合、以及数据湖和联邦学习为方向的下一代大数据平台的研究,该平台将具备混合部署、跨域数据共享和边缘计算等能力。


据了解,为支撑海量业务发展,腾讯已经建立了“大数据+AI”的双引擎技术架构,其中,最底层为分布式存储层,存储结构化及非结构化数据,第二层是资源调度层,做 CPU、GPU 和 FPGA 的管理,第三层是计算层、分析层、数据采集层,而顶层则是业务应用层。通过四层完整的技术架构,自下而上为腾讯的整个应用生态保驾护航,保障亿万用户能安全顺畅地享受到腾讯的优质服务。

从局部优化到自主研发 在实践中不断创新

从开始的技术引进、局部优化到如今的自主创新,腾讯的大数据技术在实践中不断完善、不断创新。十年前,腾讯管理几百个节点都很困难,调度性能差,规模上不去。为了有效解决计算能力和大规模集群问题,腾讯自研调度器,相对原生调度器性能提升 150 倍,大大提升了集群可扩展性。2016 年,腾讯打破 Sort Benchmark 四项世界纪录,标志着算力已经达到世界领先水平。


由于腾讯 20 万台弹性资源池的机器分布在多个数据中心,不同地区甚至是不同国家,为了降低数据使用壁垒,去年自研了漂移计算引擎 SuperSQL,作为统一的数据分析入口,通过智能 CBO 优化器,将计算下推到分布在各地的异构数据源,数据分析性能提高很多倍,并且数据量越大优势越明显。


数据应用越来越深入,腾讯对数据挖掘的需求也越来越多。随着模型的增大,最初用来做数据训练的 MR、Spark 已经不能满足上亿的模型维度的需求。2015 年初,腾讯开始自研高性能的分布式机器学习平台 Angel,采用 PS 架构,能支持 10 亿维度。目前 Angel 发展到 3.0 版本,能支持万亿维度,也可以兼容 Spark、PyTorch、TensorFlow 等生态,进一步降低了使用门槛。此外,Angel 今年还新增了对深度学习、图计算等的支持。

腾讯正成为大数据领域开源最全面厂商

技术迭代不断加速,企业建设大数据平台和机器学习平台,不仅成本高昂,而且缺乏相应的专业人才,面临种种问题。


云时代,这些问题得到有效解决。目前,腾讯已经把网络、存储、数据库等 IaaS 能力,大数据、机器学习等 PaaS 的能力,以及上层的图像、语音、NLP、BI 等 SaaS 能力,通过腾讯云对外开放。在大数据和 AI 两个领域,腾讯推出了以 TBDS 和智能钛 TI 为首的双引擎。让每个企业,不需要专业的大数据和 AI 团队,也能便捷用上领先的大数据和 AI 的能力。


另外,腾讯也通过开源和广大开发者共享技术成果。从 2014 开始,将第一代平台的核心,腾讯版的 Hive 进行了开源,2017 年,更是把第三代平台的核心 Angel 开源。今年,腾讯加快了开源的脚步,在内部推开源协同的战略推动下,腾讯所有的技术栈,后续会越来越开放。


2 个月前,腾讯在 ApacheCon 2019 上,面向全球开发者正式宣布开源自身核心平台——实时数据采集平台 TubeMQ,并捐献给 Apache 社区。此次在 Techo 大会现场,再次重磅宣布正式开源资源管理平台核心 TKE 和分布式数据库 TBase,随着在大数据开源领域的开源逐步加速,腾讯正在成为中国大数据领域开源最全面的厂商。


“目前,已经有数百万的开发者在腾讯云上构建应用,相信后面会有越来越多开发者加入,我们将和所有开发者一起,共建云上的应用生态”,蒋杰表示。


2019-11-11 14:552804

评论

发布
暂无评论
发现更多内容

技术招聘常被吐槽,企业应该考虑好这一点

李忠良

28天写作

2050年的一次出游 (28天写作 Day15/28)

mtfelix

自动驾驶 28天写作 科幻写作

28天瞎写的第二百二十六天:TechCrunch Hackathon 的故事

树上

28天写作

人设崩塌的美国生物实验室

脑极体

历史上的今天

IT蜗壳-Tango

七日更

无代码、Excel与Airtable

lidaobing

低代码 Excel 无代码开发 28天写作 Airtable

项目管理系列(8)-从0到1搭建PMO(一)

Ian哥

28天写作

你有多久没去看海了呢「幻想短篇 15/28」

道伟

28天写作

Soul 源码阅读 03|WebSocket 同步数据分析

哼干嘛

Java 源码分析 Soul网关

如何管理过程质量?新手管理者的陷阱

一笑

管理 管理者 28天写作 质量保证

5G最核心的本质是能力可被编排及开放

JiangX

5G 数字化转型 28天写作

产品质量管理活动流程

L3C老司机

【CSS】红砖背景

德育处主任

css3 大前端 html/css CSS小技巧 28天写作

week9-conclusion

J

用docker-compose快速部署ChirpStack

远鹏

Docker-compose IoT ChirpStack LoraWan Go 语言

关于“为更新而更新”的一种新的理解

Nydia

大数据知识专栏 - Hadoop的资源管理 Yarn介绍

小马哥

大数据 hadoop YARN 七日更

什么是上瘾?

石云升

28天写作 上瘾

史上最全!阿里巴巴2021年最新最全500道Java后端面试大全(值得收藏)

Java 编程 程序员 面试

Windows AD 是否开启或者关闭了UAC服务

BigYoung

windows Windows 10

共识算法的简单理解(一)

石君

28天写作

soul 数据同步(三)http长轮询 同步策略

xzy

十个手指头弹钢琴、高水准欣赏探讨优雅益智的古典音乐技术 数学不好很难进行

【高并发】ReadWriteLock怎么和缓存扯上关系了?!

冰河

并发编程 读写锁 高并发 ReadWriteLock 签约计划第二季

一个系统小BUG修复投产居然花了3个小时来处理(上)

罗小龙

28天写作 投产事故 解决思路

【并发编程的艺术】JVM内存模型

程序员架构进阶

架构 Java内存模型 Java虚拟机 28天写作

为什么很多事情说起来容易做起来难

Justin

学习 心理学 成长 心态 28天写作

币币交易系统APP开发|币币交易软件开发

系统开发

疫情闭关修炼半个月,我竟把JDK源码都读懂了!

996小迁

Java 编程 架构 面试 程序人生

week9-homework

J

区块链量化交易怎么做?

v16629866266

从引进到自研,腾讯大数据平台每日数据计算量超30万亿_服务革新_云加社区_InfoQ精选文章