大数据与机器学习 2016年大事记

前言

不知不觉间，2016 年已然过去，2017 年已经到来。蓦然回首，我们发现在过去的一年，大数据和人工智能领域的发展让我们眼花缭乱，应接不暇，待我为大家梳理一番。

标志性大事件

Apache Hadoop at 10 ：Hadoop 诞生 10 年了。2006 年 1 月 28 日，Doug Cutting 和 Mike Cafarella 从他们的开源网络爬虫项目（Apache Nutch）中分离出分布式文件系统以及 MapReduce 设施，把它当作一个子项目，并称其为 Hadoop。Cutting 发表了他动情地回顾了自己与 Hadoop 故事，并提出了对未来的展望
人工智能再显身手，谷歌AlphaGo 战胜李世石：Google 旗下DeepMind 出品的AlphaGo 连胜三局（五局三胜制）战胜韩国职业棋手围棋九段李世石。这将是人工智能领域的又一里程碑事件。另外，2016 年底，神秘的Master 给我们带来了精彩续集： 60 胜 0 负！谷歌承认 Master 是 AlphaGO

大数据技术继续蓬勃发展

以 Hadoop 和 Spark 为代表的大数据技术生态系统继续发展壮大。

Hadoop 3.0 新特性预览：Hadoop 3.0 中引入了一些重要的功能和优化，包括 HDFS 可擦除编码、多 Namenode 支持、MR Native Task 优化、YARN 基于 cgroup 的内存和磁盘 IO 隔离、YARN container resizing 等
Apache Spark 2.0.0 发布，APIs 更新：Apache Spark 2.0.0 发布了，Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载
Apache Beam 将统一大数据平台的开发：一直以来，大数据开发涉及到各种框架，比如，Hadoop、Storm、Spark 和 Flink 等，基于这些框架的开发要求的技术栈都各不同，这对开发者来说开发成本比较高，在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行

巨头相继开源机器学习框架

Facebook 开源深度学习框架 Torchnet ，相比其他巨头自己搭建的深度学习框架，Torchnet 更加开放，也将大幅推进深度学习的应用普及
LinkedIn 开源机器学习库 Photon ：Photon 机器学习支持 Apache Spark，通过结合 Spark 快速处理海量数据的能力和强大的模型训练和诊断工具，Photon 机器学习提供给研究型工程师更多的信息来决策使用哪类推荐系统算法
Microsoft 开源其深度学习工具包 CNTK ：CNTK 是一个统一的深度学习工具包，它通过一个有向图将神经网络描述为一系列计算步骤。在有向图中，叶节点表示输入值或网络参数，边表示输入之上的矩阵运算。CNTK 使得实现和组合前馈型神经网络 DNN、卷积神经网络（CNN）和循环神经网络 (RNNs/LSTMs) 变得非常容易。实现了支持跨多个 GPU 和服务器自动分化和并行化的随机梯度下降（SGD）学习
亚马逊 AWS 推出人工智能服务：与微软谷歌竞争：亚马逊举行发布会宣布，旗下云服务 Amazon Web Services（以下简称“AWS”）增加人工智能服务，可以让开发者在应用中增加预测和分析功能
Google 已经于 2015 年底开源 TensorFlow，并于 2016 年继续完善

巨头竞相收购人工智能公司

Google，Facebook，Microsoft 相继表示，未来将更加重视 AI，除了开源了以上的机器学习框架，还分别投入巨资收购了一些人工智能公司和人才。

Google, Facebook, Amazon, Apple 的人工智能之争——收购 AI 开发团队：在过去的三年内，已经有超过六成的人工智能开发公司陆续获得了赞助。就仅仅在 2016 年，已经出现了 4 次重要的大型公司竞购
微软大手笔收购 LinkedIn 让谷歌压力山大，这个搜索巨头将选择如何应对？：收购 LinkedIn 后，微软相当于为自己的软件推销策略找到了一个能够加快“变现”的强大助力——一个容纳了超过 400 万用户的社会数据集
李飞飞加入 Google，担任云计算机器学习负责人：雷锋网消息，世界人工智能顶级专家李飞飞被曝已与谷歌达成协议，将加入谷歌云计算业务新成立的机器学习部门（Google Cloud Machine Learning）

国内的发展

大数据技术

以华为，百度，阿里为代表的巨头在开源领域纷纷取得巨大进展。

Apache Storm 2.0 将基于 JStorm 。JStorm 是中国第一个进入 Apache 核心产品的开源项目，对于中国的开源发展来说意义重大
阿里巴巴向 Apache 软件基金会捐赠消息中间件 RocketM ：11 月 28 日，阿里巴巴宣布将开源分布式消息中间件 RocketMQ 捐赠给 Apache，成为 Apache 孵化项目，孵化成功后 RocketMQ 有望成为国内首个互联网中间件在 Apache 上的顶级项目，成为全球继 ActiveMQ，Kafka 之后，分布式消息引擎家族中的新成员
百度开源其人工智能系统：Warp-CTC ：该系统是一种在 CPU 和 GPU 上快速的 CTC 的并行实现。这项举动举动对于促进机器学习、人工智能领域的技术研究与发展与有重要意义
华为 Carbondata 成为 Apache Incubator（孵化器）项目》：Carbondata 的目标是创建一种新的 Hadoop 文件格式，只用一份数据，满足多样化的数据查询需求，包括顺序读，OLAP 查询，随机读

人工智能

2016 年可以说是人工智能真正成为主流的元年，人工智能成为了非常热门的概念。AlphaGo 大战李世石等事件，甚至引发了一些机器人取代人、危害人等消极观点。

巨头抢滩无人驾驶 “按捺不住”的百度将在美国测试无人车：百度首席科学家吴恩达接受采访时称，百度很快就将在美国测试无人驾驶汽车，希望能在 2018 年前推出无人驾驶商用车型
京东成立 JDX 事业部包含无人机及仓储机器人项目：京东 JDX 事业部囊括京东全自动物流中心、京东无人机、京东仓储机器人及京东自动驾驶车辆送货等一系列智能物流项目，对行业前沿、高端的智能设备、智慧系统进行研究与创新
科大讯飞 4.96 亿元收购乐知行，推动大数据与人工智能结合：公开资料显示，北京乐知行软件有限公司成立于 2011 年，是一家为中小学教育提供教育信息化整体解决方案的提供商。该公司利用云计算、大数据和移动联网技术，建立包括了数字校园、教育云平台、互联网教育和教育物联网在内的四大产品体系

其他的进展

2016 是无人驾驶转折年：科技巨头纷纷入场：2016 年，无人驾驶逐渐成为“风口”，各大车企和创投都将目光投向这一领域。无人驾驶，让科幻片中才有的黑科技似乎一下子离大众或许只有几步之遥
现在 Google 制造自己的芯片，Intel 要发疯：Google 的目标始终未变：空前的高效。为了让 AI 技术跃上一个新高度，他们需要一种能在更低能耗前提下，用更短时间完成更多任务的芯片。但这个芯片所产生的效果已经超越了 Google 帝国本身，甚至让 Intel 和 nViaia 这样的商业化芯片制造商的未来受到威胁，尤其是考虑到 Google 对于未来的愿景
英伟达 20 亿美元豪赌人工智能：20 亿美元是什么概念？英伟达去年全年的营业收入也才 50 亿美元出头，所以英伟达用了几乎一半的全年收入投入到这一款芯片的研发中，这背后的原因是，英伟达看中了人工智能领域未来的发展

推荐阅读

作者简介

丁涛是一名软件工程师，目前就职于京东商城。专注于后端 / 服务端开发、架构设计，关注架构设计、大数据、人工智能领域的发展

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

创作场景

大数据与机器学习 2016 年大事记