大数据与机器学习 2016年中盘点

前言：
转眼间，公元 2016 年已经过半。人类在大数据和机器学习领域又取得了诸多进展，让我们共同回顾一下。

本文将分以下几个部分进行盘点。
一、里程碑事件
二、开源项目（国际篇）
三、业界动态（国际篇）
四、开源项目（国内篇）
五、业界动态（国内篇）
六、下半年展望
七、周报集锦

里程碑事件

Hadoop 10 岁了！

Hadoop 诞生 10 年了。2006 年 1 月 28 日，Doug Cutting 和 Mike Cafarella 从他们的开源网络爬虫项目（Apache Nutch）中分离出分布式文件系统以及 MapReduce 设施，把它当作一个子项目，并称其为 Hadoop。Doug Cutting 发表了 Apache Hadoop at 10 ，他动情地回顾了自己与 Hadoop 故事，并提出了对未来的展望。

开源项目（国际篇）

Facebook

4 月 为 Facebook Messager 发布了基于 bot 的开发者平台：聊天机器人的目标是最终取代应用。用户不再需要在自己的设备上安装各种应用，而是使用 Messenger 来和各种的聊天机器人交互，从而完成各种任务，目前这些任务都是通过触屏界面由各种应用完成的。聊天机器人主要是依赖语音信息以及人工智能来完成指令
5 月 第一次正式介绍了 FBLearner Flow ，这是一个可以为全公司员工管理机器学习模型的机器学习软件。换句话说，这是一个可以自己制造人工智能的人工智能，你可以理解为传说中的人工智能母体
6 月
- 开源深度学习框架 Torchnet ，相比其他巨头自己搭建的深度学习框架，Torchnet 更加开放，也将大幅推进深度学习的应用普及
- 发布文本理解引擎 DeepText ，Facebook 表示，DeepText 能够以“接近人类的精确度”，理解人们的聊天内容。另外，依托后台的计算能力，这一工具每分钟能够分析、识别数千条网友评论或是聊天内容。在语种方面，这一工具已经能够分析 20 多种语言

Linkedin

3 月 开源数据挖掘软件 WhereHows ：从商业角度讲，WhereHows 的目标是从分布式的多种元数据中进行挖掘
4 月 开源 Hadoop 和 Spark 的性能监控和调优工具——Dr. Elephant ：LinkedIn 宣布开源 Dr. Elephant，Dr. Elephant 能够很好地帮助用户理解、分析和优化 Hadoop 和 Spark 的工作流。LinkedIn 在去年第八届 Hadoop Summit 上第一次在社区呈现。
6 月
- 开源分布式对象存储系统 Ambry ，Ambry 是一个是不可变对象的存储系统，非常易于扩展，它能够存储 KB 到 GB 大小的不可变对象，并且能够实现高吞吐和低延迟，该系统支持跨数据中心的双活部署，并且存储成本低廉。它特别适于存储各种媒体内容
- 开源机器学习库 Photon ：Photon 机器学习支持 Apache Spark，通过结合 Spark 快速处理海量数据的能力和强大的模型训练和诊断工具，Photon 机器学习提供给研究型工程师更多的信息来决策使用哪类推荐系统算法

Amazon

5 月 开源深度学习框架 DSSTNE ：亚马逊对于这套软件的性能很有信心，声称在亚马逊的云计算平台上，DSSTNE 比谷歌等竞争对手的计算速度快了 2.1 倍

Google

2 月 发布 TensorFlow Serving 开源项目——更快的将深度学习模型产品商业化：Google 软件工程师 Noah Fiedel 在博文中介绍，“TensorFlow Serving 是一个高性能、开源的机器学习服务系统，为生产环境及优化 TensorFlow 而设计。它更适合运行多个大规模模型，并支持模型生命周期管理、多种算法实验及有效地利用 GPU 资源。TensorFlow Serving 能够让训练好的模型更快、更易于投入生产环境使用
3 月 发布云端机器学习和 Tensor Flow 的 Alpha 测试版本：Google 发布了 alpha 版本的 TensorFlow（TF）集成云端机器学习服务，为回应不断增长的大规模在 Google 云端平台（GCP）运行 Tensor Flow 库的需要
5 月 开源全球最精准自然语言解析器 SyntaxNet ：Google 已经发布了开源的 SyntaxNet 自然语言神经网络框架，以帮助机器更好地理解自然语言。SyntaxNet 中包括了 Parsey McParseface，后者是一种专门用于“解剖”英语的语言解析器。Google 称之为世界上最准确的语言解析器，并且已经放出了允许人们借助自有数据来训练 SyntaxNet 的全部代码

Twitter

5 月
- 正式开源 Heron ：去年，Twitter 对外宣布了新的分布式流计算系统 Heron，随后消息称 Twitter 已经用 Heron 替换了 Storm。据文中介绍，Heron 支撑 Twitter 的所有实时分析业务已经有两年多了。它替代了之前使用的 Apache Storm 系统。Heron 有很多架构方面的改进，而且向后兼容 Storm 生态系统
- 开源分布式高性能日志复制服务 DistributedLog ：DL 是一个高性能的日志复制服务，提供了持久化、复制以及强一致性的功能，这对于构建可靠的分布式系统都是至关重要的，如复制状态机（replicated-state-machines）、通用的发布 / 订阅系统、分布式数据库以及分布式队列

其他开源

Apache Beam 将统一大数据平台的开发：一直以来，大数据开发涉及到各种框架，比如，Hadoop、Storm、Spark 和 Flink 等，基于这些框架的开发要求的技术栈都各不同，这对开发者来说开发成本比较高，在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行
Apache Apex 成为 Apache 顶级项目：Apache Apex 是基于 Hadoop 的流处理和批处理引擎，目前成为 Apache 顶级项目
Microsoft 开源其深度学习工具包 CNTK ：CNTK 是一个统一的深度学习工具包，它通过一个有向图将神经网络描述为一系列计算步骤。在有向图中，叶节点表示输入值或网络参数，边表示输入之上的矩阵运算。CNTK 使得实现和组合前馈型神经网络 DNN、卷积神经网络（CNN）和循环神经网络 (RNNs/LSTMs) 变得非常容易。实现了支持跨多个 GPU 和服务器自动分化和并行化的随机梯度下降（SGD）学习
雅虎开源可以提升流操作速度的 DataSketches ：就像在 Venture Beat 上所宣布的那样，雅虎开源了 DataSketches，这是一个用 Java 编写的随机流算法库。DataSketches 允许进行通常来说开销很大的操作，像计算变量不同的值在流中出现的次数，而且消耗的时间少，占用的内存小，误差可预测
雅虎开源 CaffeOnSpark：基于 Hadoop/Spark 的分布式深度学习：雅虎认为，深度学习应该与现有的支持特征工程和传统（非深度）机器学习的数据处理管道在同一个集群中，创建 CaffeOnSpark 意在使得深度学习训练和测试能被嵌入到 Spark 应用程序
OpenAI 发布开源人工智能研究工具集 OpenAI Gym ：该工具集用于开发和对比强化学习（RL）算法，这是现代机器学习研究的基础
DeepDetect——机器学习框架的 API 统一：DeepDetect 是一个专为深度学习的开源 API 和服务。它的 API 简单直观、易用、通用和易扩展
联合国平行语料 1.0 版发布：联合国平行语料 1.0 版发布，包括阿英西法俄中六种语言，总共 15 个语言对，语料包含了 1990-2014 年的数据，规模都在 1500 万个句对以上

业界动态（国际篇）

人工智能再显身手，谷歌 AlphaGo 战胜李世石：Google 旗下 DeepMind 出品的 AlphaGo 连胜三局（五局三胜制）战胜韩国职业棋手围棋九段李世石。这将是人工智能领域的又一里程碑事件
微软大手笔收购 LinkedIn 让谷歌压力山大，这个搜索巨头将选择如何应对？：收购 LinkedIn 后，微软相当于为自己的软件推销策略找到了一个能够加快“变现”的强大助力——一个容纳了超过 400 万用户的社会数据集
eBay 大数据新动作：收购瑞典大数据公司：为了更好地组织产品数据以及使平台上产品更容易找到，eBay 公司收购了一家专注人工智能，机器学习和大数据分析的瑞典公司
亚马逊 AWS 推出人工智能服务：与微软谷歌竞争：亚马逊举行发布会宣布，旗下云服务 Amazon Web Services（以下简称“AWS”）增加人工智能服务，可以让开发者在应用中增加预测和分析功能
谷歌在欧洲创建新的人工智能团队，专注机器学习：谷歌在一篇博文里宣布，他们在欧洲建立了一个的新的人工智能研究团队，专注机器学习（ML）。欧洲的 Google Research （一个团队），以位于瑞士苏黎世的谷歌办公室为基地，这里也是美国以外谷歌最大的工程办公室的故乡
Microsoft 2016 年 Build 大会：纳德拉将赌注押在人工智能上：在此次大会上，纳德拉的主题演讲以 Cortana 和人工智能为中心展开。他介绍了微软的 Bot 框架（Microsoft Bot Framework）和新的认知服务（Cognitive Services）等最新进展
Facebook 帝国：手握十年路线图，AI 及 VR 将成两大支柱：规划展示了工程 + 研究的取向，可以预计 Facebook 会通过一些工程类的落地项目，不断积累数据、资金和用户，催生人工智能和虚拟现实产品，并最终改变人机交互形式
Google I/O 2016——人工智能真正的起点：这次发布会可以说是有史以来内容分布最广的一届，覆盖了人工智能、物联网、车载系统、搜索、广告、软件、移动系统和虚拟现实等多个热门的方向和领域
Twitter 收购 Magic Pony Technology，利用神经网络优化图片和视频：Twitter 在强化机器学习技术方面又迈出了重要一步，他们收购了 Magic Pony Technology 公司，帮助其在各渠道 App 上更好地提供图片和视频内容服务
Salesforce 收购人工智能创业公司 MetaMind ：MetaMind 的通用平台能预测语言、视觉和数据库任务的结果
谷歌搜索集成 RankBrain 算法优化网页排名：据搜索引擎研究网站 Search Engine Land 报道，近日搜索引擎巨头 Google 为自家搜索服务深度集成了新型算法 RankBrain。RankBrain 算法是 Google 基于机器学习人工智能技术开发出来的最新算法，真正解决“看起来比较复杂、陌生或有歧义的语句搜索”，专门用来优化搜索引擎的网页排名
现在 Google 制造自己的芯片，Intel 要发疯：Google 的目标始终未变：空前的高效。为了让 AI 技术跃上一个新高度，他们需要一种能在更低能耗前提下，用更短时间完成更多任务的芯片。但这个芯片所产生的效果已经超越了 Google 帝国本身，甚至让 Intel 和 nViaia 这样的商业化芯片制造商的未来受到威胁，尤其是考虑到 Google 对于未来的愿景
英伟达 20 亿美元豪赌人工智能：20 亿美元是什么概念？英伟达去年全年的营业收入也才 50 亿美元出头，所以英伟达用了几乎一半的全年收入投入到这一款芯片的研发中，这背后的原因是，英伟达看中了人工智能领域未来的发展
AWS 发布关系型数据库迁移服务：这个按需使用的云服务支持实时的迁移场景，借助无模式的转换工具，在迁移过程中，用户可以使用该服务切换数据库平台
数据分析初创企业 ThoughtSpot 获 5000 万美元 C 轮融资：ThoughtSpot 是一家商业智能软件提供商，总部位于加州 PaloAlto，由准备上市的云计算公司 Nutanix 的联合创始人 Ajeet Singh 成立于 2012 年。ThoughtSpot 号称是全球第一款关系型搜索引擎
新加坡大数据公司 Lynx Analytics 拿到 1000 万美元投资，但是他们早就盈利了：Lynx Analytics 目前主要为企业提供大数据分析，运用图论理论将各种信息来源汇聚一起并施加分析，从而帮助企业精准刻画出其消费者画像，进而帮助企业推出客户所喜爱的产品并进行针对性地营销
谷歌新研究项目 Magenta：利用人工智能创作艺术：Magenta 用来探索利用人工智能来创作艺术，同时为开源人工智能平台 TensorFlow 的用户简化这一过程
网站和移动应用数据分析公司 Amplitude 完成 1500 万美元 B 轮融资：Amplitude 是一家网站和移动应用数据分析公司，旨在帮助客户更好地驱动用户留存、活跃和转化
谷歌人工智能系统 TensorFlow 开始支持 iOS ：继 2015 年 11 月 9 日 Google 发布人工智能 (AI) 系统平台 TensorFlow 并宣布开源后，近日谷歌再次针对 iOS 系统平台发布了特别版 TensorFlow。据称，特别版 TensorFlow 将首先登陆 iPhone，届时 iPhone 将可以运行更为复杂的应用
内存数据库 MemSQL 获 3600 万美元 C 轮融资：MemSQL 是一种分布式内存数据库，可提供对大数据的实时分析功能，能同时支持 SQL 与 JSON 非结构化数据，像 Apache
Spark,、Kafka 一样，MemSQL 也支持大数据的实时分析。不过不同的是尽管 MemSQL 提供有免费版本的数据库，但它本身是不开源的

综合

Hadoop Summit 2016：2016 年 4 月，都柏林的 Liffey 河畔，Hadoop Summit 2016 在 Convention 会展中心盛大开幕。大会主要议程历时 2 天，有 100 多场演讲，与会者超过 1400 人。主要内容包括 Apache Committer 洞察、数据科学、运营管理、开发技术、数据商务、物联网、Hadoop 未来几大系列。我们为您做了一些梳理，参见： Hadoop Summit 2016 欧洲峰会开幕 Keynote 回顾， Hadoop Summit 2016 会场回顾（二）， Hadoop Summit 2016 会场回顾（三）， Hadoop Summit 2016 会场回顾（最终篇）
Spark Summit 2016：Spark 峰会是 Spark 领域内规模最大、最具影响力的工业会议。2016 年的 Spark 峰会上，众多业界大咖为我们带来了 Spark 2.0、机器学习、人工智能等方面的精彩演讲。参见：《Spark 旧金山峰会侧记》
Google, Facebook, Amazon, Apple 的人工智能之争——收购 AI 开发团队：在过去的三年内，已经有超过六成的人工智能开发公司陆续获得了赞助。就仅仅在 2016 年，已经出现了 4 次重要的大型公司竞购
我们盘点了 YC 投资的 15 个人工智能项目，发现了这 3 个特点：2016 年 YC 开始砸向人工智能了，我们盘点了 YC 投资的 15 个人工智能企业，并试图从中发现产业的趋势

开源项目（国内篇）

国内方面，目前在大数据和机器学习方面的开源较少，潜力巨大。比较令人振奋的大事是，去年阿里巴巴正式加入 Apache 基金会，并将 JStorm 项目捐赠给后者。 Apache Storm 2.0 将基于 JStorm 。JStorm 是中国第一个进入 Apache 核心产品的开源项目，对于中国的开源发展来说意义重大。

百度开源其人工智能系统：Warp-CTC ：该系统是一种在 CPU 和 GPU 上快速的 CTC 的并行实现。这项举动举动对于促进机器学习、人工智能领域的技术研究与发展与有重要意义
华为 Carbondata 成为 Apache Incubator（孵化器）项目》：Carbondata 的目标是创建一种新的 Hadoop 文件格式，只用一份数据，满足多样化的数据查询需求，包括顺序读，OLAP 查询，随机读

业界动态（国内篇）

巨头抢滩无人驾驶 “按捺不住”的百度将在美国测试无人车：百度首席科学家吴恩达接受采访时称，百度很快就将在美国测试无人驾驶汽车，希望能在 2018 年前推出无人驾驶商用车型
京东成立 JDX 事业部包含无人机及仓储机器人项目：京东 JDX 事业部囊括京东全自动物流中心、京东无人机、京东仓储机器人及京东自动驾驶车辆送货等一系列智能物流项目，对行业前沿、高端的智能设备、智慧系统进行研究与创新
滴滴机器学习研究院升级为滴滴研究院何晓飞任院长：目前，滴滴研究院的研究方向包括：机器学习、计算机视觉、人工智能、数据挖掘、最优化理论、分布式计算等
科大讯飞 4.96 亿元收购乐知行，推动大数据与人工智能结合：公开资料显示，北京乐知行软件有限公司成立于 2011 年，是一家为中小学教育提供教育信息化整体解决方案的提供商。该公司利用云计算、大数据和移动联网技术，建立包括了数字校园、教育云平台、互联网教育和教育物联网在内的四大产品体系
华谊嘉信 1.48 亿美元收购 Smaato，打造“大数据 + 大内容”营销体系：届时，公司将借助其多年来在移动广告领域的经验与优势，以及 Smaato 拥有的实时竞价技术和全球投放数据资源，全面推动华谊嘉信大数据营销与数字营销战略，打出“大数据 + 大内容”组合拳
达观数据获真格领投 1000 万天使投资，专注企业大数据服务：达观数据创立于 2015 年，是一家专注于大数据技术的高科技公司，为企业提供最专业的数据采集和深度挖掘、用户画像、智能推荐、搜索等 SaaS 服务，帮助企业实现基于大数据的营销，降低企业成本提高企业效益
中国厂商星环科技被 Gartner 列为国际主流 Hadoop 发行版厂商：国际著名咨询机构 Gartner 发布了 Hadoop 发行版市场指南《Market Guide for Hadoop Distribution》1。星环科技入选为六家 Hadoop 发行版软件代表厂商之一
京东金融投资大数据公司数库：数库是一家金融产业大数据服务公司，致力于解剖非结构化或半结构化大数据，为个人金融投资、企业决策、产业升级提供了全面和精准化的服务
“神策数据”获 400 万美元 A 轮，由红杉领投：神策数据面向中小企业提供私人定制方案，帮助企业做用户行为的深度分析
第三方云推送平台“极光推送”完成千万美金 C 轮融资：成立于 2011 年的“极光推送”是一家移动大数据服务平台，主要利用大数据、云计算技术为用户提供移动消息推送服务，是一家第三方平台

下半年展望

大数据

最值得期待的莫过于 Hadoop 3.0 和 Spark 2.0 正式版的发布。
参见： Hadoop 3.0 新特性预览和 Spark 2.0 预览：更简单，更快，更智能。

人工智能

随着国内外科技巨头在人工智能“军备竞赛”的日趋白热化，我们有理由相信，下半年会有更多令人振奋的项目 / 产品面世，敬请期待。

周报集锦

作者简介

丁涛是一名软件工程师，目前就职于京东商城。专注于后端 / 服务端开发、架构设计，同时对大数据、移动开发感兴趣。关注硅谷动态，Google 粉儿。

创作场景

大数据与机器学习 2016 年中盘点