NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

LinkedIn 工程经理眼中的数据世界格局

  • 2015-07-17
  • 本文字数:2534 字

    阅读完需:约 8 分钟

本报道根据 LinkedIn 工程经理 Hien Luu 在 ArchSummit 深圳 2015 的主题演讲内容整理而成。该主题演讲《大数据趋势》从三个层面分享了 Hien 对于大数据行业发展的观察与理解,分别是:

  • 数据技术在业务需求——无论是生活还是商政方面——在近年来的巨大变化
  • 现代数据技术的重要里程碑
  • 数据技术以及它们在解决业务需求的时候正在面临的挑战,以及未来的一些可能出现的趋势

嘉宾简介

Hien Luu,目前在 LinkedIn 领导团队构建大数据应用及基础设施,负责细分与定位平台、工作流与调度系统。有 20 余年工作经验,Apache Pig 项目贡献者。在大数据应用与基于 Web 的可扩展应用领域拥有丰富的设计与构建经验。在大数据、Web 应用框架、云计算、RESTful Web 服务和加密等领域都有很丰富的经验。作为软件工程师和技术领导交付了很多成功的软件。热爱构建可伸缩、高可用的系统。

世界对数据技术的需求

当前,全球每日产生的数据量大约为 1.5 EB。目前全球所有的数据里,有 90% 都是在过去两年内生成的;而且在未来,预计每两年的数据量都会翻倍增长。

1.5 EB 是个什么概念?10 TB 大约是国会图书馆内所有 3700 万藏书的信息量;1 PB 是 1000 TB,50 PB 大约是全人类有史以来所有书写内容的信息量;1 EB 是 1000 PB,5 EB 大约是全人类有史以来所有说过的话语的信息量。现在整个互联网的信息量大约是 YB 级,就是 EB 之上的 ZB 之上的一个数量级,现在像是 NSA 那种规模的数据中心能够容纳这个数量级的数据。

这些数据都是哪儿来的?Facebook 现在是 300 PB 的量级,Amazon 大约是 EB 级,Google 大约是 10 EB 级,而这些数据都是来自我们每一个人的贡献。而现在所被频繁讨论的物联网,则每一个物品都有一个独特的识别,它们将会数量庞大,以更快的速度制造更多的数据。比如,Google 自动驾驶汽车不间断的从激光感应器、雷达、方位感应器等传感器收集数据并进行实时处理,每辆车收集的数据量达到每秒 1GB。GE 的飞机引擎,每一个引擎平均在一次飞行中就会产生 1TB 的数据,而一个引擎每年能消耗价值 2000 亿美金的燃油。而对于 GE 这样庞大的企业,即使是 1% 的燃油节省、1% 的效率提升,都意味着巨大的节省。

数据就是 21 世纪的原油,需要加工才能产生价值。我们用数据做什么?怎样带来价值?目前常见的大概有五个方向:预测,推荐,问题识别,个性化,以及参考。预测,尤其是近期预测,以 Google Flu Trends 为代表,结合历史数据推断近期是否会爆发流感。内容推荐,以 Netflix 为代表,他们当时为电影评分推荐引擎专门设置了一个奖项。问题识别,如城市堵车问题,有一家叫做 Inrix 的公司在 37 个国家提供实时交通信息。个性化,以 LinkedIn 的 Economic Graph 为代表。公共参考这一块,我很欣赏的一个非盈利组织 DataKind 做得很不错,他们在全球很多国家都提供数据点,涉及饥饿问题、气候问题等。另外美国政府在数据这方面也有很大投入,他们聘请了 DJ Patil 作为首席数据科学家,也建立了 data.gov 网站公布很多政务信息。

现代数据技术的重要里程碑

大数据时代可以说是从 2003 年 Google 两篇论文的公布开始的,一篇是 Google File System,另一篇则是 MapReduce。这两个方面的研究都是为了解决 Google 在搜索和索引当中遇到的数据问题,后来促生了 2006 年 Hadoop 的诞生。

Hadoop 最大的特点就是数据处理的民主化(分布决策),对于部分系统失效的情况能够较好的处理。喜欢上 Hadoop 的开发者们很快就在 Hadoop 的基础上创建了新的抽象层,如 Hive 和 Cascading 等,不过 Hadoop 1.0 仍然有很多局限性,最大的两个局限性就是扩展性问题和资源配置的效率问题。这两个问题到了 Hadoop 2.0 就好了很多。

Hadoop 只是一个框架,提供了数据处理能力,而用户需要的是解决方案。在用户需求的推动下,又促生了诸如 Hortonworks 这样的公司。

2010 年,AMPlab 推出的 Spark 又带来了重大的改变。其有三个特点最令人兴奋,一是速度(内存计算),二是通用性(是一个支持各种数据类型的通用引擎),三是易用性(API 容易上手且提供多个流行语言的版本)。

对于 Spark 的性能,2014 年有一次基准测试的数据,100TB 的数据在 23 分钟内完成处理,比 Hadoop 要快数倍。而且在资源使用方面,更是只有 Hadoop 的十分之一(206 vs 2100)。

将这些框架和能力做成解决方案,如何做得灵活又能够容错,就是一个系统架构的问题了。现在一个架构模式是 Lambda 架构,其中有三个设计原则,一个就是能够对人类的错误进行容错(因为是人总会犯错),让人类的错误不会造成数据破坏、数据丢失,第二个是数据的不变性,三是保留原始的数据,以后可以再进行其他的处理计算。

Lambda 架构包括三部分。数据来的时候会送到 Speed Layer,下面是 Batch Layer,再往下是 Service Layer 用于服务 Batch Layer。

数据技术正在面临的挑战以及未来可能的趋势

一个挑战是把不同来源的数据进行更高效的整合。一个挑战是缺乏分析的技能,因为这个领域目前还缺乏人才,预计到 2018 年数据科学家的缺口会达到 150 万,但是越来越多的大学已经在提供这方面的硕士课程。另一个是数据在刚刚被制造出来的时候是更有价值的,即实时数据的价值高于历史数据,所以快速处理数据的能力也是一个挑战,不仅要快、要高效率,还要支持大规模。

其他的挑战还有文化方面的,要在公司内部建立数据驱动的文化,存储、收集、分析数据的文化。

还有一个趋势是数据科学即服务。其实现在已经有一些,比如 Amazon Maching Learning Service,Google Prediction API 等等,但能做的事情还很有限,这里的难度还是很高的。

下一个大数据的创新是 Prediction Phase,机器学习将无所不在。数据越来越多,机器学习的效果就越好,会逐渐的提升。

【完】

Looking for 更多有爱的技术会议?可以看看下面这三个能量满塞的活动:

  • 全球容器大会 CNUTCon ,由 InfoQ 最懂 container 技术的编辑 Gary 同学策划邀请可能是国内外在 container 技术的应用上最有经验的工程师们创造一次为期两天的交流机会,只需要在北京就可以跟他们近距离接触。会议时间:2015 年 8 月 28~29 日。
  • QCon 上海 2015 ,综合性软件技术会议中的经典,无需赘言。会议时间:2015 年 10 月 15~17 日。
  • ArchSummit 北京 2015,将在本次 ArchSummit 深圳站结束之后公布议程与报名信息,敬请留意!

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2015-07-17 19:092892

评论

发布
暂无评论
发现更多内容

搞Android开发为什么这么难?想哭了!,kotlin中文

android 程序员 移动开发

搞了三年Android开发终于把线程、多线程和线程池全搞懂了,掌握这些核心知识

android 程序员 移动开发

收割腾讯等十几个Offer后,揭秘进大厂的秘诀和Android技术面试题汇总!

android 程序员 移动开发

数据结构篇09、哈希表--简化版HashMap,一线互联网移动架构师360°全方面性能调优

android 程序员 移动开发

普通程序员,三年成为年薪70w架构师,只因有了这些习惯

android 程序员 移动开发

最新 Android 热门开源项目公布,androidframework开发书籍

android 程序员 移动开发

注意-跳槽必看啊!2020BATJZ大厂面筋集合!(建议收藏),android开发网上购物app

android 程序员 移动开发

教你如何使用Flutter和原生App混合开发,androidstudio项目实战

android 程序员 移动开发

数据结构篇11、映射Map及其三种底层实现,android插件化框架

android 程序员 移动开发

来自程序员的感叹:我怎么就没有阿里,腾讯,安卓内存监控悬浮窗

android 程序员 移动开发

文字太多?控件太小?试试 TextView 的新特性 Autosizing 吧

android 程序员 移动开发

春招结束,腾讯+字节,android移动开发基础案例教程答案

android 程序员 移动开发

最后再说一次!!不要在你的App启动界面设置SingleTask-SingleInstance

android 程序员 移动开发

搞了三年Android开发终于把线程、多线程和线程池全搞懂了,掌握这些核心知识(1)

android 程序员 移动开发

最全-BAT-大厂Java和Android面试题整理!为接下来秋招金九银十做准备(聪明人已经收藏了

android 程序员 移动开发

收好这份钉钉和抖音的客户端面经,真的很重要!,ndk开发环境

android 程序员 移动开发

来自Android菜鸟的思考:普通公司的程序员技术跟大厂的差距在哪?怎样才能达到大厂技术水平

android 程序员 移动开发

没有对象怎么面向对象编程呢?真让人头秃!,android音视频编解码

android 程序员 移动开发

教你如何使用Jetpack绘制天气图,史上最详细!,跨平台app开发框架

android 程序员 移动开发

数据结构(三), 弄懂红黑树RBTree(多图警告!!!),帮你突破瓶颈

android 程序员 移动开发

无意苦争春,一任群芳妒!看完这份2020年度大厂Android面试总结

android 程序员 移动开发

曾经身为一名Android面试官的我,如今去别的公司面试被虐成狗!我也有今天7

android 程序员 移动开发

最好用的安卓按钮,含泪狂刷Android基础面试118题

android 程序员 移动开发

月薪20+的Android面试都问些什么?,android实战开发记账本app视频

android 程序员 移动开发

没想到位图算法在Android RecyclerView中还可以这样应用!

android 程序员 移动开发

文档06-H264解码流程,android实战开发项目阅读器

android 程序员 移动开发

教你如何使用Flutter和原生App混合开发(1),Android开发面试解答之Handler

android 程序员 移动开发

新鲜出炉的Android面试题,确定不来看看吗?还有超详细的答案解析哦

android 程序员 移动开发

最新-Android-面试点梳理,我收藏了你呢?,事件分发机制怎么回答

android 程序员 移动开发

某 Android 大牛 “凡尔赛”,Android-Camera内存问题剖析

android 程序员 移动开发

泛型使用到原理,2020-2021阿里巴巴安卓面试真题解析

android 程序员 移动开发

LinkedIn工程经理眼中的数据世界格局_大数据_sai_InfoQ精选文章