【FCon上海】与行业领袖共话AI大模型、数字化风控等前沿技术。 了解详情
写点什么

Hortonworks 章剑锋访谈:Tez、数据科学和隐私安全

  • 2014-09-20
  • 本文字数:1979 字

    阅读完需:约 6 分钟

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

MapReduce 已经开始显现老化的迹象,局限性越来越明显。Tez 作为下一代 hadoop 的执行引擎与传统的 MapReduce 相比做了很大的改进和优化,将计算模型直接建立在 DAG 上面,比传统的 MapReduce 更加直接,灵活,在性能上有很大的提升。同时由于 Tez 从项目开始就集成了 Yarn,从而对于整个计算资源的 Context 了解的更加清楚,这也有助于性能的优化。

本次 QCon 上海的演讲嘉宾章剑锋接受了 InfoQ 邮件采访,访谈中谈到他正在使用的 Tez 平台、数据科学这个行业以及数据挖掘中的隐私问题。

受访者简介

章剑锋(@章剑锋 _Jeff),Hortonworks Member of Technical Staff。很早的接触到了 hadoop,从 2009 年开始使用 pig,然后一步步延伸到 hadoop,nosql,statisitcal data anlytics 等大数据领域。可以说一路走来都是在和 data 打交道,不管是从底层的 infrastructure,还是更上层的统计数据分析,Machine Learning。和 data 打交道有一件很有趣,很有挑战,也能给人带来快乐的事情。喜欢技术,喜欢桌球,喜欢 K 歌,喜欢和人 brainstorming:)

InfoQ:MapReduce 这么多年,今日被吐槽的次数逐渐增多,您对 Tez 比较熟悉,请您给大家讲讲 MapReduce 的颓势和 Tez 的好处。

章剑锋:首先 MapReduce 是一个很 General 的计算框架,General 的东西应用面很广,可以解决很多问题,可是在解决一些问题的时候通常不会是最优的方法,这是一个 trade-off。以前人们急于解决单机不能处理的大数据问题,对性能要求相对较少,现在随着技术和业务的发展,对性能和计算场景提出了更高的要求。与 MapReduce 相比较,Tez 在性能方面更加出色,同时在计算框架方面更加灵活,MapReduce 相对来说是一个比较死的框架,所有的 MRJob 都只能有一个 Mapper 和 Reducer,一个复杂的问题不得不分拆出很多个 MRJob,而 Tez 在这方面更加灵活,一个复杂的任务就是一个 TezJob。

InfoQ:Tez 想要获得广大开发者认可的话,您觉的只是时间问题,还是有亟待改善的地方?

章剑锋:首先 Tez 从项目成立到现在为止只有 1 年时间,还有很多事情要做。我认为以下几点是要继续改善的:

  • API 的易用性,Tez 的 API 相对来说不是那么好用,相对于 MapReduce 的 API 来说,也不是那么好用,Tez 0.5 已经在这方面做了很多工作(Tez-690)
  • 吸引更多的用户使用,任何东西都不能闭门造车,很多问题只有在真实环境下才能出现,我们希望能够收集到更多用户的反馈,推广 tez 的使用。

InfoQ:看到您简介中,对机器学习应用也很有了解,请您介绍一下这方面主要做了些什么工作?

章剑锋:研究生是学 NLP 的(自然语言处理),所以对 Machine Learning 也算有一定经验,做过一些基础的文本分类,关系抽取方面的工作。我认为机器学习可能是继大数据之后另一个热点。

InfoQ:您可以算的上是数据科学家了,请问平时跟数据打交道的时候,和跟代码打交道有什么不同呢?

章剑锋:首先我觉得和数据打交道要非常小心,代码可以有 bug,但数据对 bug 的容忍度基本上就是 0。一旦你的数据分析出了结果分享出去了,后来又发现了 bug,就很麻烦,你的客户对你的信任度会降低,下次你出分析结果的时候,人家就会带有怀疑的眼光来看了。数据分析是一个很复杂的系统工程,涉及数据的采集,清理,分析,可视化等等一系列工作,任何一个步骤出错,都会影响到最终的业务。

InfoQ:近年来数据科学日益火爆,您觉得目前业界对数据的应用是否到位呢?有没有什么大数据应用是您特别看好的?

章剑锋:对于国内来说数据的应用应该还很不够,对于非 IT 类公司就不用说了,就算是一个互联网公司对数据的重视度也不够。国内的互联网公司往往在前期比较注重开发速度,各种产品推出的时候都比较粗糙,没有数据来验证这个 feature 到底是好还是不好,对于数据收集与分析这种不是立竿见影的东西都不会有太多投入。当然最近几年已经好多了,大家开始重视数据分析,未来对数据分析的人才也会急剧增加。由于最近的移动互联网和穿戴式设备的兴起,我相信前几年炒得物联网概念将会再次兴起,大数据和数据科学在这一方面将会起到很大的作用。

InfoQ:看您微博您还关心人工智能、图灵测试,您能谈谈前一阵子传出的图灵测试已经被突破的新闻么?

章剑锋:大概浏览过这个新闻,技术创兴永远不会停止,相信未来 IT 技术将在人类生活中产生更加重要的影响。

InfoQ:大数据时代,机器越来越智能,越来越了解用户,会不会在某种程度上造成安全隐患?

章剑锋:当然这会是一个问题,就算是很注重个人隐私保护的美国也会有这样的问题(比如之前曝光的 iphone 收集用户信息的问题)。但是因为数据里面隐藏着巨大的价值,这就会诱使企业去收集数据。我觉得这也是一个 trade-off 问题,相信未来人们能找到一个平衡。

采访者简介

张天雷(@小猴机器人),清华大学计算机系博士,熟悉知识挖掘,机器学习, 社交网络舆情监控,时间序列预测等应用。目前主要从事国产无人车相关的研发工作。

公众号推荐:

AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

2014-09-20 21:501494
用户头像

发布了 268 篇内容, 共 119.6 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

互联网信贷风险与大数据 存量管理

张老蔫

28天写作

Oracle中我们什么时候需要用到定时任务?

xiezhr

oracle 定时任务 存储过程

什么样的技术能进入一线大厂?这份阿里、百度、腾讯等 20家Java岗招聘要求梳理报告,会给你答案;

Java架构师迁哥

LeetCode题解:91. 解码方法,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

San CLI 的实现原理

百度Geek说

cli service san command

网易游戏基于 Flink 的流式 ETL 建设

Apache Flink

flink

Elasticsearch Document 写入原理

escray

elastic 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

Wireshark数据包分析学习笔记Day9

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

十四五重头戏的工业互联网,为什么需要IP化先行

脑极体

优化自动化测试流程,使用 flask 开发一个 toy jenkins工具

和牛

Python 软件测试

浅谈:国内低代码开发平台能搭建哪些企业管理系统?

优秀

低代码开发平台

Linux 高并发服务器 select/poll实现

赖猫

Linux linux编程 linux开发 Linux服务器开发

高质量、高并发的实时通信架构设计与探索

融云 RongCloud

架构 通信

虚拟路由器冗余协议 VRRP 详解

跳表

一个大红包

3月日更

「Linux」网络配置大揭秘

我是程序员小贱

3月日更

​Web攻击怎么办?安全防护有方案

浪潮云

安全

一名MindSpore新手的爬坑记录~~

依旧廖凯

28天写作 3月日更

(28DW-S8-Day21) 《流程型组织》学习笔记:「客户第一」还是「老板第一」

mtfelix

28天写作 流程型组织

啥?用了并行流还更慢了

L

Java

并发编程-原子操作CAS

赖猫

c++ 高并发 并发 CAS Linux服务器开发

CodeHub#4 前情预告|H5 容器在技术实践中的应用

蚂蚁集团移动开发平台 mPaaS

html5 移动开发 codehub 教育科技

Lex Fridman: How to learn and master a new skill 简评

teoking

基于SparkMLlib智能课堂教学评价系统的设计与实现(一)

大数据技术指南

大数据 spark 智能时代 28天写作 3月日更

飞行汽车到底能不能普及?

石云升

思维方式 科技革命 28天写作 3月日更

打卡第一次

容光

办公自动化

原来我还有网络天赋

叫练

网络 交换机

优雅编程 | Javascript闭包的4种高级用法

devpoint

闭包 防抖 节流 闭包要点

粉丝福利 | 秒 get 支付宝同款扫码组件

蚂蚁集团移动开发平台 mPaaS

支付宝 二维码 mPaaS 扫码 QRCODE

读书笔记:我的安全世界观

架构精进之路

安全 #读书 3月日更

Python DataTime 日期处理

HoneyMoose

Hortonworks章剑锋访谈:Tez、数据科学和隐私安全_QCon_张天雷_InfoQ精选文章