写点什么

基于 Kubernetes 构建现代大数据管道

  • 2018-01-11
  • 本文字数:1108 字

    阅读完需:约 4 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

容器技术(如 Kubernetes)为现代数据管道的实现带来了可能性。来自 lguazio 的大数据架构师 Eliran Bivas 在最近举行的北美KubeCon+CloudNativeCon 2017 大会上做了演讲,谈论了大数据管道以及Kubernetes 将如何帮助构建现代大数据管道。

在过去,大数据主要依赖Hadoop,而近年来,大数据生态系统出现了新的数据库、流式数据和机器学习解决方案,Hadoop 的部署模型(Map Reduce、YARN 和HDFS)已经无法完全满足它们的要求。它们还需要集群调度层来托管各种工作负载,如Kafka、Spark 和TensorFlow,并使用存储在各种数据库中的数据,如Cassandra、Elasticsearch 和云存储。

Bivas 谈论了软件开发生命周期中的各种团队和他们的主要目标。应用工程师想要敏捷式的软件开发,数据工程师更关心数据被保存在哪里,想要让数据库运行在最佳状态,而 DevOps 团队希望所有系统都能正常工作,减少维护和中断时间。得益于容器技术的发展,所有这些目标都有望达成。

他介绍了一种通用框架,用于创建端到端的云原生分析应用程序。开发人员负责对数据服务与应用程序进行解耦,框架则让大数据解决方案更灵活和高效。该框架也可用在数据服务上,用于管理各种结构化、非结构化和流式数据。

整个解决方案应该要基于云原生应用和框架,并使用 Kubernetes 提供的统一编排层。

Bivas 描绘了一种持续分析流模型,包括处于中间层的数据服务,它们使用容器化的 Spark、TensorFlow 等大数据分析工具来分析来自数据存储(关系型数据库)和外部(物联网)的数据。

无服务器框架 Kubeless OpenFaaS 可用在这些解决方案中。无服务器解决方案可以在不使用 YAML、Dockerfile 等文件的情况下进行方便的部署。它们还支持自动伸缩和触发事件。

Bivas 还介绍了 Nuclio 的架构细节,Nuclio 是最近开源的一个实时无服务器平台。它使用 Kubernetes 作为 YARN 之外的替代方案,还使用了 Spark ML、Presto、TensorFlow 和 Python,以及无服务器 Function。Nuclio 还支持可插拔的事件源和数据源。

他还谈论了实时分析技术在汽车维护方面的应用,通过 Web API 流式化汽车相关数据,并使用微服务进行数据摄取。他们使用天气数据和道路数据来增强汽车数据,根据天气条件组装合适的汽车配件。

Bivas 在演讲中进行了一个演示,展示了基于云原生架构进行大数据分析的优势。在演讲结时,Bivas 总结了一些最佳实践,如使用 Kubernetes 提供的工具、记录应用日志、收集度量指标、通过度量指标了解应用程序的性能。

如果读者对 Nuclio 框架感兴趣,可以查看它的 GitHub 项目代码示例文档

查看英文原文 Modern Big Data Pipelines over Kubernetes

2018-01-11 18:003826
用户头像

发布了 321 篇内容, 共 127.2 次阅读, 收获喜欢 138 次。

关注

评论

发布
暂无评论
发现更多内容

讲透学烂二叉树(六):二叉树的笔试题:翻转|宽度|深度

zhoulujun

二叉树 二叉树遍历 二叉树翻转

悄悄学习Doris,偷偷惊艳所有人 | Apache Doris四万字小总结

王知无

Excelize 发布 2.4.1 版本,新增并发安全支持

xuri

Excel Go 语言 Excelize #Github

数据加密和BCrypt哈希算法应用 | StartDT Tech Lab 15

奇点云

Seata TCC模式原理与实战

码农参上

分布式事务 seata SpringCloud Alibaba 8月日更

Python入门:ChainMap 有效管理多个上下文

华为云开发者联盟

Python 字典 上下文 映射 ChainMap

Compose 中的主题

Changing Lin

8月日更

LeetCode题解:220. 存在重复元素 III,暴力法,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

netty系列之:自定义编码解码器

程序那些事

Java Netty 程序那些事

【Flutter 专题】68 图解基本约束 Box (三)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

【Vue2.x 源码学习】第三十七篇 - 组件部分 - 组件的合并

Brave

源码 vue2 8月日更

docker的使用

Rubble

8月日更

高并发中,那些不得不说的线程池与ThreadPoolExecutor类

华为云开发者联盟

Java 线程 高并发 线程池 ThreadPoolExecutor类

智能时代的信任口诀:让计算远离算计

白洞计划

架构实战营毕业设计

林子钧

架构实战营 毕业设计

传统企业数字化转型的三大技术误区

码猿外

数字化转型 敏捷精益

从0开始的TypeScriptの九:接口Interfaces · 中

空城机

typescript 大前端 8月日更

Fastdata for TSDB: SQL使时序数据可扩展

数据库 大数据 时序数据库 tsdb 数据智能

Spark RDD模型

布兰特

spark

百亿级分布式文件系统之元数据设计

焱融科技

云计算 技术 分布式 高性能 文件存储

FastApi-15-文件上传-3

Python研究所

FastApi 8月日更

架构实战营毕业总结

林子钧

架构实战营 毕业总结

iOS开发:设置UICollectionView不同大小的item的方法

三掌柜

8月日更 8月

手撸二叉树之递增顺序搜索树

HelloWorld杰少

数据结构与算法 8月日更

为什么区块链是互联网的100倍?

CECBC

架构实战营 - 模块五作业

思梦乐

你真的了解 fail-fast 和 fail-safe 吗

4ye

Java 后端 并发 map 8月日更

OpenYurt 联手 eKuiper,解决 IoT 场景下边缘流数据处理难题

阿里巴巴云原生

云计算 阿里云 开源 云原生 中间件

用Java仿一个低配版的Everything软件

Regan Yue

Java 8月日更 Everything

Go语言:如何通过Go来更好的开发并发程序 ?

微客鸟窝

Go 语言

趣说开源|学生如何参与开源社区?

SphereEx

数据库 开源

基于Kubernetes构建现代大数据管道_大数据_Srini Penchikala_InfoQ精选文章