写点什么

Hortonworks 章剑锋访谈:Tez、数据科学和隐私安全

  • 2014-09-20
  • 本文字数:1979 字

    阅读完需:约 6 分钟

MapReduce 已经开始显现老化的迹象,局限性越来越明显。Tez 作为下一代 hadoop 的执行引擎与传统的 MapReduce 相比做了很大的改进和优化,将计算模型直接建立在 DAG 上面,比传统的 MapReduce 更加直接,灵活,在性能上有很大的提升。同时由于 Tez 从项目开始就集成了 Yarn,从而对于整个计算资源的 Context 了解的更加清楚,这也有助于性能的优化。

本次 QCon 上海的演讲嘉宾章剑锋接受了 InfoQ 邮件采访,访谈中谈到他正在使用的 Tez 平台、数据科学这个行业以及数据挖掘中的隐私问题。

受访者简介

章剑锋(@章剑锋 _Jeff),Hortonworks Member of Technical Staff。很早的接触到了 hadoop,从 2009 年开始使用 pig,然后一步步延伸到 hadoop,nosql,statisitcal data anlytics 等大数据领域。可以说一路走来都是在和 data 打交道,不管是从底层的 infrastructure,还是更上层的统计数据分析,Machine Learning。和 data 打交道有一件很有趣,很有挑战,也能给人带来快乐的事情。喜欢技术,喜欢桌球,喜欢 K 歌,喜欢和人 brainstorming:)

InfoQ:MapReduce 这么多年,今日被吐槽的次数逐渐增多,您对 Tez 比较熟悉,请您给大家讲讲 MapReduce 的颓势和 Tez 的好处。

章剑锋:首先 MapReduce 是一个很 General 的计算框架,General 的东西应用面很广,可以解决很多问题,可是在解决一些问题的时候通常不会是最优的方法,这是一个 trade-off。以前人们急于解决单机不能处理的大数据问题,对性能要求相对较少,现在随着技术和业务的发展,对性能和计算场景提出了更高的要求。与 MapReduce 相比较,Tez 在性能方面更加出色,同时在计算框架方面更加灵活,MapReduce 相对来说是一个比较死的框架,所有的 MRJob 都只能有一个 Mapper 和 Reducer,一个复杂的问题不得不分拆出很多个 MRJob,而 Tez 在这方面更加灵活,一个复杂的任务就是一个 TezJob。

InfoQ:Tez 想要获得广大开发者认可的话,您觉的只是时间问题,还是有亟待改善的地方?

章剑锋:首先 Tez 从项目成立到现在为止只有 1 年时间,还有很多事情要做。我认为以下几点是要继续改善的:

  • API 的易用性,Tez 的 API 相对来说不是那么好用,相对于 MapReduce 的 API 来说,也不是那么好用,Tez 0.5 已经在这方面做了很多工作(Tez-690)
  • 吸引更多的用户使用,任何东西都不能闭门造车,很多问题只有在真实环境下才能出现,我们希望能够收集到更多用户的反馈,推广 tez 的使用。

InfoQ:看到您简介中,对机器学习应用也很有了解,请您介绍一下这方面主要做了些什么工作?

章剑锋:研究生是学 NLP 的(自然语言处理),所以对 Machine Learning 也算有一定经验,做过一些基础的文本分类,关系抽取方面的工作。我认为机器学习可能是继大数据之后另一个热点。

InfoQ:您可以算的上是数据科学家了,请问平时跟数据打交道的时候,和跟代码打交道有什么不同呢?

章剑锋:首先我觉得和数据打交道要非常小心,代码可以有 bug,但数据对 bug 的容忍度基本上就是 0。一旦你的数据分析出了结果分享出去了,后来又发现了 bug,就很麻烦,你的客户对你的信任度会降低,下次你出分析结果的时候,人家就会带有怀疑的眼光来看了。数据分析是一个很复杂的系统工程,涉及数据的采集,清理,分析,可视化等等一系列工作,任何一个步骤出错,都会影响到最终的业务。

InfoQ:近年来数据科学日益火爆,您觉得目前业界对数据的应用是否到位呢?有没有什么大数据应用是您特别看好的?

章剑锋:对于国内来说数据的应用应该还很不够,对于非 IT 类公司就不用说了,就算是一个互联网公司对数据的重视度也不够。国内的互联网公司往往在前期比较注重开发速度,各种产品推出的时候都比较粗糙,没有数据来验证这个 feature 到底是好还是不好,对于数据收集与分析这种不是立竿见影的东西都不会有太多投入。当然最近几年已经好多了,大家开始重视数据分析,未来对数据分析的人才也会急剧增加。由于最近的移动互联网和穿戴式设备的兴起,我相信前几年炒得物联网概念将会再次兴起,大数据和数据科学在这一方面将会起到很大的作用。

InfoQ:看您微博您还关心人工智能、图灵测试,您能谈谈前一阵子传出的图灵测试已经被突破的新闻么?

章剑锋:大概浏览过这个新闻,技术创兴永远不会停止,相信未来 IT 技术将在人类生活中产生更加重要的影响。

InfoQ:大数据时代,机器越来越智能,越来越了解用户,会不会在某种程度上造成安全隐患?

章剑锋:当然这会是一个问题,就算是很注重个人隐私保护的美国也会有这样的问题(比如之前曝光的 iphone 收集用户信息的问题)。但是因为数据里面隐藏着巨大的价值,这就会诱使企业去收集数据。我觉得这也是一个 trade-off 问题,相信未来人们能找到一个平衡。

采访者简介

张天雷(@小猴机器人),清华大学计算机系博士,熟悉知识挖掘,机器学习, 社交网络舆情监控,时间序列预测等应用。目前主要从事国产无人车相关的研发工作。

2014-09-20 21:501442
用户头像

发布了 268 篇内容, 共 117.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

对进入面向对象世界的思考

云飞

UML 面向对象设计原则

架构师训练营第二次作业0616

Geek_10

架构师训练营第二周学习总结

James-Pang

极客大学架构师训练营

架构师训练营-第二周作业

Linuxer

极客大学架构师训练营

Week2学习总结

Frank Zeng

杜克大学提出 AI 算法,拯救渣画质马赛克秒变高清

神经星星

人工智能 算法 分辨率 GAN

极客大学架构师训练营第一天作业

Ethan

第二周作业

新世界

架构

架构师训练营 week2

devfan

设计模式

架构师训练营Week2

Frank Zeng

架构师训练营第二周学习总结

不谈

极客大学架构师训练营

架构师训练营第二周总结

王铭铭

架构师培训 -02 面向对象基本设计原则

刘敏

架构师训练营第二周作业

王铭铭

ElasticSearch原理解析

Chank

elasticsearch

领域驱动设计(DDD)学习笔记

Chank

DDD

教程序员使用Jekyll搭建漂亮的个人博客

小傅哥

小傅哥 Jekyll GitHub Pages 个人博客

极客大学架构师训练营第一天总结

Ethan

架构训练营-第二节

刘志刚

架构师week2 作业

李锦

极客大学架构师训练营

面向对象设计学习总结

周冬辉

分布式柔性事务的TCC方案

奈学教育

分布式

第二周总结

王锟

基于docker部署的Java应用jmx无法远程访问的问题

qihuajun

构架师训练营-第二周总结

Dawn

极客大学架构师训练营

全网唯一秃头数据集:20 万张人像,网罗各类秃头

神经星星

人工智能 程序员 人脸识别 科技互联网

分布式柔性事务的TCC方案

古月木易

分布式

GitHub 热榜:适合初学者学习的 Prometheus 监控系统

JackTian

GitHub 开源 运维 Prometheus 监控系统

第二周总结

andy

架构师训练营第二周课后作业三

不谈

极客大学架构师训练营

编程的本质

陈皮

Architecture Programing

Hortonworks章剑锋访谈:Tez、数据科学和隐私安全_QCon_张天雷_InfoQ精选文章