写点什么

Hadoop Summit 2016 会场回顾(二)

  • 2016-04-20
  • 本文字数:2184 字

    阅读完需:约 7 分钟

2016 年 4 月 13 日,都柏林的 Liffey 河畔,Hadoop Summit 2016 在 Convention 会展中心盛大开幕。大会主要议程历时 2 天,有 100 多场演讲,与会者超过 1400 人。主要内容包括 Apache Committer 洞察、数据科学、运营管理、开发技术、数据商务、物联网、Hadoop 未来几大系列。本文就数据科学、数据商务、物联网这三方面的一些内容做一个简单回顾。

It’s Not the Size of Your Cluster, It’s How You Use It**** 演讲

由 Big Fish Games 的 David Darden 和 Don Smith 带来。介绍 Big Fish 从零开始上线 Hadoop 的过程,尤其是如何获得业务支持,启动庞大的技术工程。对那些受困于大数据项目启动成本的听众很有启发。在 Big Fish,Hadoop 集群主要用于入口分析、用户行为探索、以及分流计算压力。如何获得初始投资一直是个大问题。经验是保持良好沟通,明确地告知用户技术能做到什么(不能做到什么),然后等待,直到大量业务需求积累,推动技术项目启动。尽量用业务项目预算来覆盖技术基础设施投资。专注关键业务,高速迭代开发,尽早展示商业价值,获得用户认可从而推动下一轮投资。另外试图预测外来是行不通的,Hadoop 技术的发展常常快于公司的计划,试图满足所有的用户需求也是不可能的,目前还没有能搞定一切需求的万能大数据技术。

MLLeap: Or How to Productionize Data Science Workflows using Spark**** 演讲

由 TrueCar 的 Mikhail Semeniuk 和 Hollin Wilkins 带来。MLeap 的关键特性是能在 Spark 上训练机器学习模型,但又没有对 Spark API 的依赖,做到了模型和运行库的轻量化,能在物联网的各种微小设备上运行。MLeap 包括核心、运行库、Spark 集成和序列化几个部分。核心包含线性代数、特征提取、线性回归、分类器等通用工具。运行库包含 LeapFrame(类似 DataFrame) 和 MLeap Transformer。MLeap Transformer(非常类似 Spark Transformer,有一对一的关系) 用核心提供的类库转换 LeapFrame,完成训练。Spark 集成提供从 Spark Transformer 到 MLeap Transformer 的方便转换。序列化相当灵活,支持 JSON 或者 Protobuf。提供了一个测试报告,显示 MLeap Transform 比 Spark Transform 快 1000 倍。这个比较有明显的不公平,因为逐条记录运行,Spark Transform 对每一条记录都会重复一个初始化的过程,好比每个微批次都只有一条记录。当场演示了从简单的模型训练到部署的全过程,训练后的模型可以方便的发布在 MLeap API Rest Server 上使用。未来工作包括核心类库向 Spark 全面靠拢,统一 API,支持所有的 Spark Transformer,支持 Python/R 的接口,以及部署在非 JVM 的嵌入式设备运行。

Hadoop and Friends as Key Enabler of the IoE – Continental**'s Dynamic eHorizon演讲 **

来自 Dr. Thomas Beer, Continental Automotive。这是非常有趣的一个大数据、机器学习和汽车一体的应用。Thomas 博士介绍了他们的 Learning Map 原型,利用每一辆汽车作路况信息采集,汇总到云端做机器学习,最后汇总生成精确的路况地图发送回每一辆汽车,从而实现自动驾驶。数据采集从每辆汽车开始,采集的数据不是原始图片,而是经过简单特征提取和加工的数据包,每条采集的信息大约 100KB 左右,通过安全网关送到云端。云端的数据导入用 Storm 和 Kafka 完成,数据验证和清洗用 Spark,结果数据仓库保存为 Hadoop Sequence 文件。地图学习运行在 Spark 上,暂时每天执行两次,生成的地图保存在 Amazon S3,再通过安全网关发还给每辆汽车。基础架构方面,现在原型系统主要是在 Amazon 上自行搭建的 Hadoop,正在考虑向 PaaS 过度,比如使用 Elastic MapReduce 执行机器学习任务,将大大减少机器上线时间从而节省成本。

Hadoop and Other Animals 演讲

来自 Matthew Aslett, 451 Research。演讲从到底什么是 Hadoop 说起,有狭义和广义两种理解。狭义指 Apache Hadoop 开源项目本身,由 HDFS、YARN、MapReduce 三部分组成的核心。而广义来说,Hadoop 生态系统不仅仅是那只黄色的小象,而是以它为中心的整个动物园!Hadoop 生态系统经过多年的发展,俨然已经成为大数据平台的事实标准,被世界范围内几乎所有的高科技公司一致采用(Google 大概是唯一的例外)。其底层由 HDFS 和 YARN 组成集群操作系统,之上有如 MapReduce 和 Spark 的运算框架,有如 HBase 和 Phoenix 的数据管理,有如 Zookeeper 和 Oozie 的协作模块,有如 Hive 和 Kylin 的数据分析,有如 Storm 和 Spark Streaming 的流式处理,有如 Mahout 和 Spark ML 的机器学习,有如 Ranger 和 Eagle 的安全监控等等。其覆盖大数据从采集到存储,从运算到分析,从安全到监控,无所不包,无所不有。如此强大的生态系统,已经完成了对大数据技术的事实垄断。与其从功能上来细分 Hadoop 的各种模块(如核心、流处理、数据库、分析工具等等),倒不如从用户角度来看整个 Hadoop 家族能提供什么样的解决方案,也许是个更好的方法。

作者介绍李扬,Kyligence 联合创始人兼 CTO,Apache Kylin 联合创建者及项目管理委员会成员 (PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任 eBay 全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights 的技术负责人,负责 Hadoop 开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。

2016-04-20 02:402154

评论

发布
暂无评论
发现更多内容

敏捷开发工具leangoo时间线视图管理项目

顿顿顿

Scrum 敏捷开发 甘特图 敏捷开发管理 时间线

详细剖析|袋鼠云数栈前端框架Antd 3.x 升级 4.x 的踩坑之路

袋鼠云数栈

前端‘’

重磅通知!OpenAI又放大招:官宣开放API接口-3.5版本 需求大涨,机遇与挑战并存,谁能拔得头筹?

加入高科技仿生人

人工智能 开源 openai ChatGPT

新思科技为三星SDS公司开源使用和风险管理提供自动治理解决方案

InfoQ_434670063458

开源 软件开发 新思科技 软件安全

为企业全方位解决进销存管理难题的ERP套件

力软低代码开发平台

使用metrics-server监控k8s的资源指标

tiandizhiguai

DevOps 微服务 云原生 k8s

基于Python+UIautomation的WindowsGUI自动化测试实战(一)-记事本

自动化测试 GUI UIaotumation

基于Python+UIautomation的WindowsGUI自动化测试实战(二)-计算器

Python 自动化测试 GUI UIaotumation

小程序容器作为软件中间件技术不可忽视的价值

FinFish

小程序容器 小程序技术 软件中间件

首批!阿里云容器服务 ACK 顺利通过信通院云原生混部项目评估

阿里巴巴中间件

阿里云 容器 云原生

ChatGPT辅助编程

鲸品堂

ChatGPT 企业号 3 月 PK 榜

类加载机制

Apache IoTDB

IoTDB

「资源广场」上线|以开发者为中心,打造开放资源共享平台

Jianmu

jenkins CI/CD 镜像仓库 容器镜像 建木

Apache IoTDB v0.13.4 发布|优化监控功能

Apache IoTDB

IoTDB

Soul 云原生网关最佳实践

阿里巴巴中间件

阿里云 云原生 实践 云原生网关

开源项目的演进会遇到哪些“坑”?KubeVela 从发起到晋级 CNCF 孵化的全程回顾

阿里巴巴云原生

阿里云 开源 云原生 KubeVela

ChatGPT潜能很大,问题也是

引迈信息

人工智能 低代码开发 应用开发 ChatGPT JNPF

数据库革新拐点已来——MatrixOne Beta Program Recap

MatrixOrigin

云原生 分布式数据库 MatrixOrigin MatrixOne

软件测试/测试开发 | 一步一步学测试平台开发-Vue restful请求

测试人

软件测试 自动化测试 测试开发 测试平台

ICLR 2023 | 网易伏羲3篇论文入选,含强化学习、自然语言处理等领域

网易伏羲

瓴羊Quick BI与Power BI之争:数据大屏优势明显

对不起该用户已成仙‖

Apache Flink 1.16 功能解读

Apache Flink

大数据 flink 实时计算

【云图说】 | 第268期 初识开天企业工作台MSSE

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

Apache IoTDB v1.0.1 发布|修复分区计算,优化集群启停流程

Apache IoTDB

IoTDB

what量化合约系统开发&源码丨clear合约量化系统开发技术(Demo案例)

I8O28578624

程序调试利器——GDB使用指南

京东科技开发者

c++ debug gdb 企业号 3 月 PK 榜 程序检测

新思科技发布《2023年开源安全和风险分析》报告

InfoQ_434670063458

开源 新思科技 软件安全

下一站,冠军|走进2022 OceanBase数据库大赛12强

OceanBase 数据库

数据库 oceanbase

Hadoop Summit 2016会场回顾(二)_大数据_李扬_InfoQ精选文章