2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

大数据与机器学习 2016 年中盘点

  • 2016-07-18
  • 本文字数:7198 字

    阅读完需:约 24 分钟

前言
转眼间,公元 2016 年已经过半。人类在大数据和机器学习领域又取得了诸多进展,让我们共同回顾一下。

本文将分以下几个部分进行盘点。
一、里程碑事件
二、开源项目(国际篇)
三、业界动态(国际篇)
四、开源项目(国内篇)
五、业界动态(国内篇)
六、下半年展望
七、周报集锦

里程碑事件

Hadoop 10 岁了!

Hadoop 诞生 10 年了。2006 年 1 月 28 日,Doug Cutting 和 Mike Cafarella 从他们的开源网络爬虫项目(Apache Nutch)中分离出分布式文件系统以及 MapReduce 设施,把它当作一个子项目,并称其为 Hadoop。Doug Cutting 发表了 Apache Hadoop at 10 ,他动情地回顾了自己与 Hadoop 故事,并提出了对未来的展望。

开源项目(国际篇)

Facebook

  • 4 月 为 Facebook Messager 发布了基于 bot 的开发者平台:聊天机器人的目标是最终取代应用。用户不再需要在自己的设备上安装各种应用,而是使用 Messenger 来和各种的聊天机器人交互,从而完成各种任务,目前这些任务都是通过触屏界面由各种应用完成的。聊天机器人主要是依赖语音信息以及人工智能来完成指令

  • 5 月 第一次正式介绍了 FBLearner Flow ,这是一个可以为全公司员工管理机器学习模型的机器学习软件。换句话说,这是一个可以自己制造人工智能的人工智能,你可以理解为传说中的人工智能母体

  • 6 月

    • 开源深度学习框架 Torchnet ,相比其他巨头自己搭建的深度学习框架,Torchnet 更加开放,也将大幅推进深度学习的应用普及
    • 发布文本理解引擎 DeepText ,Facebook 表示,DeepText 能够以“接近人类的精确度”,理解人们的聊天内容。另外,依托后台的计算能力,这一工具每分钟能够分析、识别数千条网友评论或是聊天内容。在语种方面,这一工具已经能够分析 20 多种语言

Linkedin

  • 3 月 开源数据挖掘软件 WhereHows :从商业角度讲,WhereHows 的目标是从分布式的多种元数据中进行挖掘

  • 4 月 开源 Hadoop 和 Spark 的性能监控和调优工具——Dr. Elephant :LinkedIn 宣布开源 Dr. Elephant,Dr. Elephant 能够很好地帮助用户理解、分析和优化 Hadoop 和 Spark 的工作流。LinkedIn 在去年第八届 Hadoop Summit 上第一次在社区呈现。

  • 6 月

    • 开源分布式对象存储系统 Ambry ,Ambry 是一个是不可变对象的存储系统,非常易于扩展,它能够存储 KB 到 GB 大小的不可变对象,并且能够实现高吞吐和低延迟,该系统支持跨数据中心的双活部署,并且存储成本低廉。它特别适于存储各种媒体内容
    • 开源机器学习库 Photon :Photon 机器学习支持 Apache Spark,通过结合 Spark 快速处理海量数据的能力和强大的模型训练和诊断工具,Photon 机器学习提供给研究型工程师更多的信息来决策使用哪类推荐系统算法

Amazon

  • 5 月 开源深度学习框架 DSSTNE :亚马逊对于这套软件的性能很有信心,声称在亚马逊的云计算平台上,DSSTNE 比谷歌等竞争对手的计算速度快了 2.1 倍

Google

  • 2 月 发布 TensorFlow Serving 开源项目——更快的将深度学习模型产品商业化:Google 软件工程师 Noah Fiedel 在博文中介绍,“TensorFlow Serving 是一个高性能、开源的机器学习服务系统,为生产环境及优化 TensorFlow 而设计。它更适合运行多个大规模模型,并支持模型生命周期管理、多种算法实验及有效地利用 GPU 资源。TensorFlow Serving 能够让训练好的模型更快、更易于投入生产环境使用
  • 3 月 发布云端机器学习和 Tensor Flow 的 Alpha 测试版本:Google 发布了 alpha 版本的 TensorFlow(TF)集成云端机器学习服务,为回应不断增长的大规模在 Google 云端平台(GCP)运行 Tensor Flow 库的需要
  • 5 月 开源全球最精准自然语言解析器 SyntaxNet :Google 已经发布了开源的 SyntaxNet 自然语言神经网络框架,以帮助机器更好地理解自然语言。SyntaxNet 中包括了 Parsey McParseface,后者是一种专门用于“解剖”英语的语言解析器。Google 称之为世界上最准确的语言解析器,并且已经放出了允许人们借助自有数据来训练 SyntaxNet 的全部代码

Twitter

  • 5 月

    • 正式开源 Heron :去年,Twitter 对外宣布了新的分布式流计算系统 Heron,随后消息称 Twitter 已经用 Heron 替换了 Storm。据文中介绍,Heron 支撑 Twitter 的所有实时分析业务已经有两年多了。它替代了之前使用的 Apache Storm 系统。Heron 有很多架构方面的改进,而且向后兼容 Storm 生态系统
    • 开源分布式高性能日志复制服务 DistributedLog :DL 是一个高性能的日志复制服务,提供了持久化、复制以及强一致性的功能,这对于构建可靠的分布式系统都是至关重要的,如复制状态机(replicated-state-machines)、通用的发布 / 订阅系统、分布式数据库以及分布式队列

其他开源

  • Apache Beam 将统一大数据平台的开发:一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行
  • Apache Apex 成为 Apache 顶级项目:Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目
  • Microsoft 开源其深度学习工具包 CNTK :CNTK 是一个统一的深度学习工具包,它通过一个有向图将神经网络描述为一系列计算步骤。在有向图中,叶节点表示输入值或网络参数,边表示输入之上的矩阵运算。CNTK 使得实现和组合前馈型神经网络 DNN、卷积神经网络(CNN)和循环神经网络 (RNNs/LSTMs) 变得非常容易。实现了支持跨多个 GPU 和服务器自动分化和并行化的随机梯度下降(SGD)学习
  • 雅虎开源可以提升流操作速度的 DataSketches :就像在 Venture Beat 上所宣布的那样,雅虎开源了 DataSketches,这是一个用 Java 编写的随机流算法库。DataSketches 允许进行通常来说开销很大的操作,像计算变量不同的值在流中出现的次数,而且消耗的时间少,占用的内存小,误差可预测
  • 雅虎开源 CaffeOnSpark:基于 Hadoop/Spark 的分布式深度学习:雅虎认为,深度学习应该与现有的支持特征工程和传统(非深度)机器学习的数据处理管道在同一个集群中,创建 CaffeOnSpark 意在使得深度学习训练和测试能被嵌入到 Spark 应用程序
  • OpenAI 发布开源人工智能研究工具集 OpenAI Gym :该工具集用于开发和对比强化学习(RL)算法,这是现代机器学习研究的基础
  • DeepDetect——机器学习框架的 API 统一:DeepDetect 是一个专为深度学习的开源 API 和服务。它的 API 简单直观、易用、通用和易扩展
  • 联合国平行语料 1.0 版发布:联合国平行语料 1.0 版发布,包括阿英西法俄中六种语言,总共 15 个语言对,语料包含了 1990-2014 年的数据,规模都在 1500 万个句对以上

业界动态(国际篇)

综合

开源项目(国内篇)

国内方面,目前在大数据和机器学习方面的开源较少,潜力巨大。比较令人振奋的大事是,去年阿里巴巴正式加入 Apache 基金会,并将 JStorm 项目捐赠给后者。 Apache Storm 2.0 将基于 JStorm 。JStorm 是中国第一个进入 Apache 核心产品的开源项目,对于中国的开源发展来说意义重大。

业界动态(国内篇)

下半年展望

大数据

最值得期待的莫过于 Hadoop 3.0 和 Spark 2.0 正式版的发布。
参见: Hadoop 3.0 新特性预览 Spark 2.0 预览:更简单,更快,更智能

人工智能

随着国内外科技巨头在人工智能“军备竞赛”的日趋白热化,我们有理由相信,下半年会有更多令人振奋的项目 / 产品面世,敬请期待。

周报集锦

作者简介

丁涛是一名软件工程师,目前就职于京东商城。专注于后端 / 服务端开发、架构设计,同时对大数据、移动开发感兴趣。关注硅谷动态,Google 粉儿。

2016-07-18 19:005987
用户头像
丁涛 越努力,越幸运

发布了 35 篇内容, 共 10.9 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

Java编程入门经典,慕课网java架构师百度网盘,字节跳动Java高级工程师

Java 程序员 后端

Java编程教程入门,java使用教程第五版答案,美团优选面试题Java

Java 程序员 后端

Java自学视频百度云,尚硅谷大数据百度云,Java编程教学视频

Java 程序员 后端

Java进阶教程,极客网盘破解版吾爱破解,卑微打工人

Java 程序员 后端

Java重点知识点总结,java开发教程百度云,Java零基础入门书籍

Java 程序员 后端

Java程序员面试笔记,极客时间vue开发实战,Java进阶教程视频

Java 程序员 后端

Java程序员面试笔试真题,java零基础入门视频百度云,阿里P7大牛亲自讲解

Java 程序员 后端

Java编程书籍推荐,尚硅谷springboot,遇到的面试官都是架构师级别

Java 程序员 后端

Java经典入门教程,vue尚学堂,Java面试问项目

Java 程序员 后端

Java编程百度云,java实用教程第五版百度云,字节跳动资深面试官亲述

Java 程序员 后端

Java面试java基础,java基础语法菜鸟教程,腾讯Java社招面试

Java 程序员 后端

Java程序员最新职业规划,尚学堂高琪300集,初级Java工程师面试题

Java 程序员 后端

Java程序员面试中最容易答错的8道面试题,tomcat面试题及答案

Java 程序员 后端

Java笔试题及答案详解,nginx入门到精通百度云,全网最全原理讲解

Java 程序员 后端

Java软件开发面试题,从paxos到zookeeper网盘,已拿到offer

Java 程序员 后端

Java通用流行框架大全,Java校招面试问题大全

Java 程序员 后端

Java这些高端技术只有你还不知道,正在准备面试

Java 程序员 后端

Java银行面试题目及答案,java基础菜鸟教程容器类,疯狂涨知识

Java 程序员 后端

Java程序员必会!开课吧java高级架构师课程,Java开发大厂面试经验

Java 程序员 后端

Java编程入门自学,牛客网在线编程,Java基础入门视频教程

Java 程序员 后端

Java通用流行框架大全,迈向java面试突击课百度云,来来来

Java 程序员 后端

架构训练营-模块二

Geek_9de3de

架构实战营

Java自学宝典下载免费,java框架ssh和ssm百度,Java常见编程笔试题

Java 程序员 后端

Java进阶之光,java工程师视频教程,王者笔记!

Java 程序员 后端

Java零基础自学书籍,尚硅谷spring视频,BAT大厂面试总结

Java 程序员 后端

Java笔试编程题大全带答案,mysql入门视频教程,Java多态实现原理

Java 程序员 后端

Java编程入门经典,linux使用教程课后答案,mysql常见笔试题

Java 程序员 后端

Java编程方法论pdf,kalilinux新手教程,Java实习面试经验汇总

Java 程序员 后端

Java算法基础面试题,java教程张孝祥百度云,Java初级程序员面试题目

Java 程序员 后端

Java菜鸟入门教程,硅谷之火pdf百度网盘,吃透这份阿里P8纯手打Java面经

Java 程序员 后端

Java重点知识点,极客时间破解蓝奏云,顺利通过阿里Java岗面试

Java 程序员 后端

大数据与机器学习 2016年中盘点_大数据_丁涛_InfoQ精选文章