红帽白皮书新鲜出炉!点击获取,让你的云战略更胜一筹! 了解详情
写点什么

华为云助力斗鱼,轻松应对海量数据分析

  • 2020-03-20
  • 本文字数:2176 字

    阅读完需:约 7 分钟

华为云助力斗鱼,轻松应对海量数据分析

互联网快速发展的当下,数据存储计算的需求与日俱增。华为在 GIV 2025 报告中指出,预计到 2025 年,全球每年新增数据存储量为 180ZB,企业的数据利用率将会达到 86%。


随着 5G、IoT、VR/AR、自动驾驶等技术的发展,会涌现更多大数据应用的创新,面对海量数据分析带来的算力需求不均、数据结构的多样化、高并发作业等诸多挑战,传统大数据平台存算一体耦合在同一集群,主要基于本地 HDFS 作为大数据存储。


这种存算一体的大数据技术架构随着存储量的增长计算成本也随之线性增长,无法灵活配置存储及算力,难以满足企业海量数据分析追求极致性价比的一些典型场景,需要通过大数据计算存储分离方案来解决。


  • 在离线分析场景中

  • 离线批处理,分析类型多,数据量大,大数据开发需求爆发式增长,对存储和算力需求不一。当存储空间或计算资源不足时,企业只能同时对两者进行扩容,虽然能保证性能最优,但存算资源,扩容成本高,利用率低。通过大数据计算存储分离方案,计算不够扩计算,存储不够扩存储,计算资源根据任务负载动态扩缩容机器,最大限度降低企业使用成本,提升资源利用率。

  • 在日志留存场景中

  • 存储周期变长(例如 2 个月变成 6 个月),但算力并不需要显著增加,通过大数据计算分离方案可降低计算的配置和成本。

  • 在一些为了提高效率的场景中

  • 有时需要关闭闲置的计算集群,但由于计算集群中存在数据,关闭闲置的计算集群会导致数据丢失,无法实现真正的弹性计算,存算分离可保证数据不丢失。


作为国内首家弹幕式直播分享网站,斗鱼已成为国内排名第一的电竞娱乐一站式直播分享平台,以游戏直播为主,涵盖了体育、综艺、娱乐等多种直播内容,每天都在为成千上万的观众分享欢乐。


据头榜 2019 年 12 月数据显示,斗鱼日均活跃观众 1485.56 万人次,累积弹幕总数 9 亿 7073 万,活跃主播 32.38 万人次,平均在线时长达 5 小时以上,累积付费礼物 4 亿 6146 万……每月将会产生 PB 级数据量。


与此同时,直播黑产(主播刷榜、渠道推广、非法充值等等)也越来越猖獗,斗鱼自建的大数据分析平台面临数据量和计算量大但要严格控制成本的困难,在有限的投入下提升斗鱼风控平台投诉排查效率。


在 HUAWEI CONNECT 2019 大会期间,李瑞(斗鱼风控代表)表示:


斗鱼大数据分析平台目前是自建集群基于开源 CDH,随着业务规模越来越大,面临数据量大、计算量大,维护成本高的困难,需要寻求稳定高性价比的解决方案。


通过严格的业务模拟、比拼测试后,华为云“存算分离+鲲鹏”大数据解决方案适用斗鱼大数据数据增速快于计算的业务场景。其在读写性能、复杂计算、简单计算、数据倾斜等方面均优于 IDC 本地大数据计算集群,整体性能得到大幅提升。


那么,华为云“存算分离+鲲鹏”大数据解决方案为直播代表斗鱼带来了哪些价值:

存算分离性价比高,极致弹性 大幅提升大数据集群资源利用率

华为云“存算分离+鲲鹏”大数据解决方案针对传统存算一体大数据架构中扩容困难、资源利用率低等问题,


采用计算存储分离架构:


  • 存储基于公有云对象存储实现 11 个 9 的高可靠,无限容量,支撑企业数据量持续增长;

  • 计算资源支持 0~N 弹性扩缩,百节点 3 分钟发放。存算分离后,计算节点可实现真正的极致弹性伸缩;

  • 数据存储部分基于 OBS 的跨 AZ 等能力实现更高可靠性,无需担心地震、挖断光纤等突发事件。


存储和计算资源可以灵活配置,根据业务需要各自独立进行弹性扩展,可使资源匹配更精准、更合理,让大数据集群资源利用率大幅提升,综合分析成本降低 50%,帮助斗鱼实现性价比最优。同时:


  • 通过高性能的计算存储分离架构,针对对象存储数据访问效率深度优化(元数据操作、写入算法优化等),实现存储加速;

  • 通过分布式高性能缓存,异构存储模型,支持热数据加速访问,实现缓存加速;

  • 通过高性能 shuffle、高效的 SQL 优化器,实现计算引擎加速;支持多数据源的计算下压,性能相比开源提升 1 倍。


基于多级加速技术支持,助力斗鱼离线大数据分析效率大幅提升。



图 1 华为云存算分离大数据架构

鲲鹏加持 为大数据提供更高算力

在计算层,华为云“存算分离+鲲鹏”大数据解决方案基于鲲鹏处理器的多核高并发能力、自研 EulerOS,可为用户提供包括裸金属服务器,云服务器,容器和 Serverless 在内的多种粒度的大数据算力,大数据分布式场景性能可提升 25%,可轻松处理 PB 级数据作业,帮助斗鱼解决 IDC 算力不够的问题,为斗鱼在海量数据多并发作业提供可扩展的分析能力。

开放生态 全面兼容,0 改造上云

华为云坚持开放生态路线, “存算分离+鲲鹏”大数据解决方案完全兼容开源原生接口,全面兼容主流的大数据生态,让斗鱼大数据应用从 IDC“0 改造”平滑移植上华为云。


同时提供一份数据支持多引擎的能力,即同一份数据存放在 OBS 上供多引擎调度(传统批、流、交互式,以及 AI 引擎),数据“0”搬迁,减少数据冗余,支持多种业务计算诉求,实现真正数据湖,帮助斗鱼减少重复投资,轻松应对海量存储,提升业务分析效率。未来双方还将在 AI,视频云服务,5G+Cloud+直播创新等领域进一步合作,打造更好的用户体验。


华为云“存算分离+鲲鹏”大数据解决方案为客户和伙伴提供高性价比、极致弹性伸缩、多元计算引擎的业界领先大数据解决方案,使得客户和伙伴可以更加聚焦业务,创造价值,打破数据孤岛,助力企业数字化转型。


本文转载自华为云产品与解决方案站公众号。


原文链接:https://mp.weixin.qq.com/s/KSO9f2N5MY36pDmC_xSTLQ


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-03-20 21:28703

评论

发布
暂无评论
发现更多内容

2 小时开发《点球射门游戏》,动画演示思路(下),代码已开源

非喵鱼

Java 开源 游戏 12 月 PK 榜 世界杯足球游戏

群晖DS218+做maven私服(nexus3)

程序员欣宸

maven 12月月更 群晖

百度 Android 直播秒开体验优化

百度Geek说

android 百度app 12 月 PK 榜 直播优化

区块链“入局”证券市场,未来前景有多大?

旺链科技

区块链 产业区块链 证券行业 12 月 PK 榜

KAFKA EAGLE 监控MRS kafka之操作实践

华为云开发者联盟

开发 华为云 12 月 PK 榜

借用FinClip把小程序游戏运行到自有App中

Onegun

小游戏 小游戏开发 微信小游戏

ReactDOM.render在react源码中执行之后发生了什么?

flyzz177

React

IoT高级设备检索——设备管理运维类

阿里云AIoT

数据库 监控 物联网 传感器 Cloud Native

2小时开发《点球射门游戏》,动画演示思路(上),代码已开源

非喵鱼

Java 开源 游戏 12 月 PK 榜 世界杯足球游戏

前端面试指南之JS面试题总结

loveX001

JavaScript

前端面试题(附答案)

loveX001

JavaScript

React Context源码是怎么实现的呢

flyzz177

React

掌握 CORS 跨域请求,读这一篇文章就够了

范家鹏

HTTP CORS 跨域 异步请求 跨域资源共享

深入理解JS作用域链与执行上下文

loveX001

JavaScript

用javascript分类刷leetcode3.动态规划(图文视频讲解)

js2030code

JavaScript LeetCode

算法 KECP 被顶会 EMNLP 收录,极少训练数据就能实现机器阅读理解

阿里云大数据AI技术

自然语言处理 机器学习 12 月 PK 榜 机器阅读

面试官:MySQL 中 varchar(n) 中 n 最大取值为多少?

架构师之道

MySQL 编程 计算机

Git实战(四)| Git分支管理实操,搞定在线合并和本地合并

霍格沃兹测试开发学社

做了一份前端面试复习计划,保熟~

loveX001

JavaScript

React源码分析1-jsx转换及React.createElement

goClient1992

React

React源码解读之React Fiber

flyzz177

React

极客时间运维进阶训练营第七周作业

9527

前端工程师leetcode算法面试必备-二分搜索算法(上)

js2030code

JavaScript LeetCode

Git实战(五)| 让工作更高效,搞定Git的分支管理

霍格沃兹测试开发学社

手把手教你构建数据安全体系,守住安全合规红线

王巍

数据安全

潦草手写体也能轻松识别,快速提取文字不用愁

HMS Core

HMS Core

损失高达3亿美元|如何保护源代码安全?

SEAL安全

12 月 PK 榜 源代码安全 最小权限管理 零信任模型

跨机房ES同步实战

京东科技开发者

迁移 迁移数据 异步多活 Elastic Search 数据库·

前端刷完这12道滑动窗口,就可以出山面试了

js2030code

JavaScript LeetCode

基于阿里云IoT平台OTA进行APP确认升级的方案——业务架构类

阿里云AIoT

物联网 UED 数据格式

软件测试 | 版本控制神器GitHub的基本使用与踩坑

测试人

GitHub 软件测试 自动化测试 测试开发

华为云助力斗鱼,轻松应对海量数据分析_服务革新_华为云产品与解决方案_InfoQ精选文章