写点什么

大数据与机器学习 2016 年中盘点

  • 2016-07-18
  • 本文字数:7198 字

    阅读完需:约 24 分钟

前言
转眼间,公元 2016 年已经过半。人类在大数据和机器学习领域又取得了诸多进展,让我们共同回顾一下。

本文将分以下几个部分进行盘点。
一、里程碑事件
二、开源项目(国际篇)
三、业界动态(国际篇)
四、开源项目(国内篇)
五、业界动态(国内篇)
六、下半年展望
七、周报集锦

里程碑事件

Hadoop 10 岁了!

Hadoop 诞生 10 年了。2006 年 1 月 28 日,Doug Cutting 和 Mike Cafarella 从他们的开源网络爬虫项目(Apache Nutch)中分离出分布式文件系统以及 MapReduce 设施,把它当作一个子项目,并称其为 Hadoop。Doug Cutting 发表了 Apache Hadoop at 10 ,他动情地回顾了自己与 Hadoop 故事,并提出了对未来的展望。

开源项目(国际篇)

Facebook

  • 4 月 为 Facebook Messager 发布了基于 bot 的开发者平台:聊天机器人的目标是最终取代应用。用户不再需要在自己的设备上安装各种应用,而是使用 Messenger 来和各种的聊天机器人交互,从而完成各种任务,目前这些任务都是通过触屏界面由各种应用完成的。聊天机器人主要是依赖语音信息以及人工智能来完成指令

  • 5 月 第一次正式介绍了 FBLearner Flow ,这是一个可以为全公司员工管理机器学习模型的机器学习软件。换句话说,这是一个可以自己制造人工智能的人工智能,你可以理解为传说中的人工智能母体

  • 6 月

    • 开源深度学习框架 Torchnet ,相比其他巨头自己搭建的深度学习框架,Torchnet 更加开放,也将大幅推进深度学习的应用普及
    • 发布文本理解引擎 DeepText ,Facebook 表示,DeepText 能够以“接近人类的精确度”,理解人们的聊天内容。另外,依托后台的计算能力,这一工具每分钟能够分析、识别数千条网友评论或是聊天内容。在语种方面,这一工具已经能够分析 20 多种语言

Linkedin

  • 3 月 开源数据挖掘软件 WhereHows :从商业角度讲,WhereHows 的目标是从分布式的多种元数据中进行挖掘

  • 4 月 开源 Hadoop 和 Spark 的性能监控和调优工具——Dr. Elephant :LinkedIn 宣布开源 Dr. Elephant,Dr. Elephant 能够很好地帮助用户理解、分析和优化 Hadoop 和 Spark 的工作流。LinkedIn 在去年第八届 Hadoop Summit 上第一次在社区呈现。

  • 6 月

    • 开源分布式对象存储系统 Ambry ,Ambry 是一个是不可变对象的存储系统,非常易于扩展,它能够存储 KB 到 GB 大小的不可变对象,并且能够实现高吞吐和低延迟,该系统支持跨数据中心的双活部署,并且存储成本低廉。它特别适于存储各种媒体内容
    • 开源机器学习库 Photon :Photon 机器学习支持 Apache Spark,通过结合 Spark 快速处理海量数据的能力和强大的模型训练和诊断工具,Photon 机器学习提供给研究型工程师更多的信息来决策使用哪类推荐系统算法

Amazon

  • 5 月 开源深度学习框架 DSSTNE :亚马逊对于这套软件的性能很有信心,声称在亚马逊的云计算平台上,DSSTNE 比谷歌等竞争对手的计算速度快了 2.1 倍

Google

  • 2 月 发布 TensorFlow Serving 开源项目——更快的将深度学习模型产品商业化:Google 软件工程师 Noah Fiedel 在博文中介绍,“TensorFlow Serving 是一个高性能、开源的机器学习服务系统,为生产环境及优化 TensorFlow 而设计。它更适合运行多个大规模模型,并支持模型生命周期管理、多种算法实验及有效地利用 GPU 资源。TensorFlow Serving 能够让训练好的模型更快、更易于投入生产环境使用
  • 3 月 发布云端机器学习和 Tensor Flow 的 Alpha 测试版本:Google 发布了 alpha 版本的 TensorFlow(TF)集成云端机器学习服务,为回应不断增长的大规模在 Google 云端平台(GCP)运行 Tensor Flow 库的需要
  • 5 月 开源全球最精准自然语言解析器 SyntaxNet :Google 已经发布了开源的 SyntaxNet 自然语言神经网络框架,以帮助机器更好地理解自然语言。SyntaxNet 中包括了 Parsey McParseface,后者是一种专门用于“解剖”英语的语言解析器。Google 称之为世界上最准确的语言解析器,并且已经放出了允许人们借助自有数据来训练 SyntaxNet 的全部代码

Twitter

  • 5 月

    • 正式开源 Heron :去年,Twitter 对外宣布了新的分布式流计算系统 Heron,随后消息称 Twitter 已经用 Heron 替换了 Storm。据文中介绍,Heron 支撑 Twitter 的所有实时分析业务已经有两年多了。它替代了之前使用的 Apache Storm 系统。Heron 有很多架构方面的改进,而且向后兼容 Storm 生态系统
    • 开源分布式高性能日志复制服务 DistributedLog :DL 是一个高性能的日志复制服务,提供了持久化、复制以及强一致性的功能,这对于构建可靠的分布式系统都是至关重要的,如复制状态机(replicated-state-machines)、通用的发布 / 订阅系统、分布式数据库以及分布式队列

其他开源

  • Apache Beam 将统一大数据平台的开发:一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行
  • Apache Apex 成为 Apache 顶级项目:Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目
  • Microsoft 开源其深度学习工具包 CNTK :CNTK 是一个统一的深度学习工具包,它通过一个有向图将神经网络描述为一系列计算步骤。在有向图中,叶节点表示输入值或网络参数,边表示输入之上的矩阵运算。CNTK 使得实现和组合前馈型神经网络 DNN、卷积神经网络(CNN)和循环神经网络 (RNNs/LSTMs) 变得非常容易。实现了支持跨多个 GPU 和服务器自动分化和并行化的随机梯度下降(SGD)学习
  • 雅虎开源可以提升流操作速度的 DataSketches :就像在 Venture Beat 上所宣布的那样,雅虎开源了 DataSketches,这是一个用 Java 编写的随机流算法库。DataSketches 允许进行通常来说开销很大的操作,像计算变量不同的值在流中出现的次数,而且消耗的时间少,占用的内存小,误差可预测
  • 雅虎开源 CaffeOnSpark:基于 Hadoop/Spark 的分布式深度学习:雅虎认为,深度学习应该与现有的支持特征工程和传统(非深度)机器学习的数据处理管道在同一个集群中,创建 CaffeOnSpark 意在使得深度学习训练和测试能被嵌入到 Spark 应用程序
  • OpenAI 发布开源人工智能研究工具集 OpenAI Gym :该工具集用于开发和对比强化学习(RL)算法,这是现代机器学习研究的基础
  • DeepDetect——机器学习框架的 API 统一:DeepDetect 是一个专为深度学习的开源 API 和服务。它的 API 简单直观、易用、通用和易扩展
  • 联合国平行语料 1.0 版发布:联合国平行语料 1.0 版发布,包括阿英西法俄中六种语言,总共 15 个语言对,语料包含了 1990-2014 年的数据,规模都在 1500 万个句对以上

业界动态(国际篇)

综合

开源项目(国内篇)

国内方面,目前在大数据和机器学习方面的开源较少,潜力巨大。比较令人振奋的大事是,去年阿里巴巴正式加入 Apache 基金会,并将 JStorm 项目捐赠给后者。 Apache Storm 2.0 将基于 JStorm 。JStorm 是中国第一个进入 Apache 核心产品的开源项目,对于中国的开源发展来说意义重大。

业界动态(国内篇)

下半年展望

大数据

最值得期待的莫过于 Hadoop 3.0 和 Spark 2.0 正式版的发布。
参见: Hadoop 3.0 新特性预览 Spark 2.0 预览:更简单,更快,更智能

人工智能

随着国内外科技巨头在人工智能“军备竞赛”的日趋白热化,我们有理由相信,下半年会有更多令人振奋的项目 / 产品面世,敬请期待。

周报集锦

作者简介

丁涛是一名软件工程师,目前就职于京东商城。专注于后端 / 服务端开发、架构设计,同时对大数据、移动开发感兴趣。关注硅谷动态,Google 粉儿。

2016-07-18 19:005823
用户头像
丁涛 越努力,越幸运

发布了 35 篇内容, 共 10.4 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

同事跳槽拿下阿里P6Offer,程序员:会点基础还真不行

钟奕礼

Java 程序员 java面试 java编程

太卷了!5年Java程序员竟然答不出应届生字节二面?

小小怪下士

Java 程序员 字节跳动 面试

【工具使用】eclipse来回切换项目的JDK版本的方法(最全的)

No8g攻城狮

eclipse jdk jdk8 JDK7

不愧是阿里资深架构师,这本“分布式架构笔记”写得如此透彻明了

钟奕礼

Java 程序员 java面试 java编程

理解Java的强引用、软引用、弱引用和虚引用

钟奕礼

Java 程序员 java面试 java编程

作者推荐 | 【分布式技术专题】「架构设计方案」图解学习法总结集群模式下的各种软负载均衡策略实现及原理分析

码界西柚

分布式架构 负载均衡算法 12月日更 12 月 PK 榜

在 Ubuntu 上安装 Discourse 开发环境

HoneyMoose

易观分析苏筱芮:数字科技创新场景应用为王,驱动金融与实体经济同频发展

易观分析

金融

2022-12-10:给你一个由小写字母组成的字符串 s ,和一个整数 k 如果满足下述条件,则可以将字符串 t 视作是 理想字符串 : t 是字符串 s 的一个子序列。 t 中每两个 相邻 字母在字

福大大架构师每日一题

算法 rust 福大大

CleanMyMac2024值不值的下载安装?

茶色酒

CleanMyMac X CleanMyMac X2023

深入理解RBAC

俞凡

架构 网络安全 rbac

分布式计算MapReduce究竟是怎么一回事?

JAVA旭阳

Java 大数据

模块二作业

Ryan

高性能 构架

第十届MTSC上 OpenHarmony与开发者共话开源操作系统发展新格局

极客天地

SpringBoot+Mybatis+Mysql项目构建

@下一站

程序设计 12月日更 12月月更 springbootdemo

没有二十年功力,写不出Thread.sleep(0)这一行“看似无用”的代码!

钟奕礼

Java 程序员 java面试 java编程

不掌握这些坑,你敢用BigDecimal吗?

钟奕礼

Java 程序员 java面试 java编程

发布!第五届“强网”拟态防御国际精英挑战赛精彩抢先看!

科技热闻

【Java难点攻克】「NIO和内存映射性能提升系列」彻底透析NIO底层的内存映射机制原理与Direct Memory的关系

码界西柚

内存映射 用户态 内核态 12 月 PK 榜 直接内存

Python抓取B站"卡塔尔 世界杯"的视频数据

勇士

Python 爬虫 B站 世界杯

流处理基础概念-延迟和吞吐

穿过生命散发芬芳

流处理 12月月更

CleanMyMac2023mac电脑清理磁盘软件

茶色酒

CleanMyMac CleanMyMacX CleanMyMac X

我不写单元测试,被批了

钟奕礼

Java 程序员 java面试 java编程

easyrecovery2024永久免费版数据恢复软件

茶色酒

EasyRecovery15 easyrecovery2023

FLStudio水果2024中文免费版下载

茶色酒

FL Studio FL Studio21

Verilog 编译指令

芯动大师

Verilog语法 Verilog编译指令

基于ANTLR的Mysql语法解析

AiDaddy

MySQL ANTLR 语法解析

易观分析《中国智能客服供应商实力矩阵2023》研究报告正式启动

易观分析

智能客服 易观分析

GBase 8s 之数据存储空间划分

@下一站

数据库优化 国产数据库 12月日更 12月月更

使用声网 SDK 构建 Piloteer 助盲服务平台的最佳实践

声网

音视频 人工智能’ SDK 教程

大数据与机器学习 2016年中盘点_大数据_丁涛_InfoQ精选文章