【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

Hortonworks 章剑锋访谈:Tez、数据科学和隐私安全

  • 2014-09-20
  • 本文字数:1979 字

    阅读完需:约 6 分钟

MapReduce 已经开始显现老化的迹象,局限性越来越明显。Tez 作为下一代 hadoop 的执行引擎与传统的 MapReduce 相比做了很大的改进和优化,将计算模型直接建立在 DAG 上面,比传统的 MapReduce 更加直接,灵活,在性能上有很大的提升。同时由于 Tez 从项目开始就集成了 Yarn,从而对于整个计算资源的 Context 了解的更加清楚,这也有助于性能的优化。

本次 QCon 上海的演讲嘉宾章剑锋接受了 InfoQ 邮件采访,访谈中谈到他正在使用的 Tez 平台、数据科学这个行业以及数据挖掘中的隐私问题。

受访者简介

章剑锋(@章剑锋 _Jeff),Hortonworks Member of Technical Staff。很早的接触到了 hadoop,从 2009 年开始使用 pig,然后一步步延伸到 hadoop,nosql,statisitcal data anlytics 等大数据领域。可以说一路走来都是在和 data 打交道,不管是从底层的 infrastructure,还是更上层的统计数据分析,Machine Learning。和 data 打交道有一件很有趣,很有挑战,也能给人带来快乐的事情。喜欢技术,喜欢桌球,喜欢 K 歌,喜欢和人 brainstorming:)

InfoQ:MapReduce 这么多年,今日被吐槽的次数逐渐增多,您对 Tez 比较熟悉,请您给大家讲讲 MapReduce 的颓势和 Tez 的好处。

章剑锋:首先 MapReduce 是一个很 General 的计算框架,General 的东西应用面很广,可以解决很多问题,可是在解决一些问题的时候通常不会是最优的方法,这是一个 trade-off。以前人们急于解决单机不能处理的大数据问题,对性能要求相对较少,现在随着技术和业务的发展,对性能和计算场景提出了更高的要求。与 MapReduce 相比较,Tez 在性能方面更加出色,同时在计算框架方面更加灵活,MapReduce 相对来说是一个比较死的框架,所有的 MRJob 都只能有一个 Mapper 和 Reducer,一个复杂的问题不得不分拆出很多个 MRJob,而 Tez 在这方面更加灵活,一个复杂的任务就是一个 TezJob。

InfoQ:Tez 想要获得广大开发者认可的话,您觉的只是时间问题,还是有亟待改善的地方?

章剑锋:首先 Tez 从项目成立到现在为止只有 1 年时间,还有很多事情要做。我认为以下几点是要继续改善的:

  • API 的易用性,Tez 的 API 相对来说不是那么好用,相对于 MapReduce 的 API 来说,也不是那么好用,Tez 0.5 已经在这方面做了很多工作(Tez-690)
  • 吸引更多的用户使用,任何东西都不能闭门造车,很多问题只有在真实环境下才能出现,我们希望能够收集到更多用户的反馈,推广 tez 的使用。

InfoQ:看到您简介中,对机器学习应用也很有了解,请您介绍一下这方面主要做了些什么工作?

章剑锋:研究生是学 NLP 的(自然语言处理),所以对 Machine Learning 也算有一定经验,做过一些基础的文本分类,关系抽取方面的工作。我认为机器学习可能是继大数据之后另一个热点。

InfoQ:您可以算的上是数据科学家了,请问平时跟数据打交道的时候,和跟代码打交道有什么不同呢?

章剑锋:首先我觉得和数据打交道要非常小心,代码可以有 bug,但数据对 bug 的容忍度基本上就是 0。一旦你的数据分析出了结果分享出去了,后来又发现了 bug,就很麻烦,你的客户对你的信任度会降低,下次你出分析结果的时候,人家就会带有怀疑的眼光来看了。数据分析是一个很复杂的系统工程,涉及数据的采集,清理,分析,可视化等等一系列工作,任何一个步骤出错,都会影响到最终的业务。

InfoQ:近年来数据科学日益火爆,您觉得目前业界对数据的应用是否到位呢?有没有什么大数据应用是您特别看好的?

章剑锋:对于国内来说数据的应用应该还很不够,对于非 IT 类公司就不用说了,就算是一个互联网公司对数据的重视度也不够。国内的互联网公司往往在前期比较注重开发速度,各种产品推出的时候都比较粗糙,没有数据来验证这个 feature 到底是好还是不好,对于数据收集与分析这种不是立竿见影的东西都不会有太多投入。当然最近几年已经好多了,大家开始重视数据分析,未来对数据分析的人才也会急剧增加。由于最近的移动互联网和穿戴式设备的兴起,我相信前几年炒得物联网概念将会再次兴起,大数据和数据科学在这一方面将会起到很大的作用。

InfoQ:看您微博您还关心人工智能、图灵测试,您能谈谈前一阵子传出的图灵测试已经被突破的新闻么?

章剑锋:大概浏览过这个新闻,技术创兴永远不会停止,相信未来 IT 技术将在人类生活中产生更加重要的影响。

InfoQ:大数据时代,机器越来越智能,越来越了解用户,会不会在某种程度上造成安全隐患?

章剑锋:当然这会是一个问题,就算是很注重个人隐私保护的美国也会有这样的问题(比如之前曝光的 iphone 收集用户信息的问题)。但是因为数据里面隐藏着巨大的价值,这就会诱使企业去收集数据。我觉得这也是一个 trade-off 问题,相信未来人们能找到一个平衡。

采访者简介

张天雷(@小猴机器人),清华大学计算机系博士,熟悉知识挖掘,机器学习, 社交网络舆情监控,时间序列预测等应用。目前主要从事国产无人车相关的研发工作。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-09-20 21:501466
用户头像

发布了 268 篇内容, 共 118.3 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

入职新公司后如何快速上手项目

咔咔

php MySQL 数据库

架构实战营 模块五作业

孫影

架构实战营 #架构实战营

模块五作业

Mr.He

架构实战营

Python Qt GUI设计简介、环境下载和安装(基础篇—1)

不脱发的程序猿

Python qt GUI设计 Qt Company

架构实战营毕业总结

Saber

架构实战营 毕业总结

上游思维的三大障碍

石云升

读书笔记 8月日更 上游思维

LeetCode题解:208. 实现 Trie (前缀树),对象,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

智能边缘开源框架Baetyl,构建边缘融合智能应用

百度开发者中心

AI 最佳实践 物联网 边缘计算 开源技术

架构实战营模块五作业-微博评论高性能高可用架构

王晓宇

架构实战营

架构实战训练营总结

唐江

架构实战营

fil币价格行情怎么样?fil币价值和未来在哪?

fil币价格行情怎么样 fil币价值和未来在哪

极客大学架构实战0期毕业总结

谢博琛

如何在二三线城市月薪过万(三)java偏功能实现的面试题,有备无患!!

小鲍侃java

8月日更

架构实战营毕业总结

唐高为

Vue进阶(三十六):created() 详解

No Silver Bullet

Vue 8月日更

docker介绍与安装

Rubble

Docker 8月日更

HarmonyOS组件开发 ScrollView嵌套ListContainer 滑动冲突问题

爱吃土豆丝的打工人

HarmonyOS ScrollView ListContainer 嵌套滑动

Python开发篇——基于React-Dropzone开发上传组件

DisonTangor

Python flask React

netty系列之:对聊天进行加密

程序那些事

Java Netty nio

python爬取下载m3u8加密视频,原来这么简单!

Python研究者

8月日更

JavaScript 中如何比较变量的相等

devpoint

JavaScript ES6 8月日更

如何设计一个容错的微服务架构

架构精进之路

架构 微服务 8月日更

FastApi-13-文件上传-1

Python研究所

FastApi 8月日更

财富自由的本质及如何实现财富自由?

非著名程序员

认知提升 个人提升 财富自由 8月日更

架构实战营 毕业总结

Ahu

kubernetes/k8s CRI 分析 -kubelet 删除 pod 分析

良凯尔

Kubernetes 源码分析 Kubernetes Plugin #Kubernetes# cri-o

架构实战营 | 毕业总结

架构实战营

Flutter Android 端 FlutterEngine Java 相关流程源码分析

工匠若水

flutter android 面试 8月日更

Vue进阶(三十七):created、mounted等钩子函数整理

No Silver Bullet

Vue 8月日更

杂谈:电商平台中的图片资源优化实战

云小梦

CSS JavaScript html5 jpeg 图片处理

Drools 规则属性

LeifChen

drools 规则引擎 8月日更 规则属性

Hortonworks章剑锋访谈:Tez、数据科学和隐私安全_QCon_张天雷_InfoQ精选文章