如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

大数据与机器学习 2016 年中盘点

  • 2016-07-18
  • 本文字数:7198 字

    阅读完需:约 24 分钟

前言
转眼间,公元 2016 年已经过半。人类在大数据和机器学习领域又取得了诸多进展,让我们共同回顾一下。

本文将分以下几个部分进行盘点。
一、里程碑事件
二、开源项目(国际篇)
三、业界动态(国际篇)
四、开源项目(国内篇)
五、业界动态(国内篇)
六、下半年展望
七、周报集锦

里程碑事件

Hadoop 10 岁了!

Hadoop 诞生 10 年了。2006 年 1 月 28 日,Doug Cutting 和 Mike Cafarella 从他们的开源网络爬虫项目(Apache Nutch)中分离出分布式文件系统以及 MapReduce 设施,把它当作一个子项目,并称其为 Hadoop。Doug Cutting 发表了 Apache Hadoop at 10 ,他动情地回顾了自己与 Hadoop 故事,并提出了对未来的展望。

开源项目(国际篇)

Facebook

  • 4 月 为 Facebook Messager 发布了基于 bot 的开发者平台:聊天机器人的目标是最终取代应用。用户不再需要在自己的设备上安装各种应用,而是使用 Messenger 来和各种的聊天机器人交互,从而完成各种任务,目前这些任务都是通过触屏界面由各种应用完成的。聊天机器人主要是依赖语音信息以及人工智能来完成指令

  • 5 月 第一次正式介绍了 FBLearner Flow ,这是一个可以为全公司员工管理机器学习模型的机器学习软件。换句话说,这是一个可以自己制造人工智能的人工智能,你可以理解为传说中的人工智能母体

  • 6 月

    • 开源深度学习框架 Torchnet ,相比其他巨头自己搭建的深度学习框架,Torchnet 更加开放,也将大幅推进深度学习的应用普及
    • 发布文本理解引擎 DeepText ,Facebook 表示,DeepText 能够以“接近人类的精确度”,理解人们的聊天内容。另外,依托后台的计算能力,这一工具每分钟能够分析、识别数千条网友评论或是聊天内容。在语种方面,这一工具已经能够分析 20 多种语言

Linkedin

  • 3 月 开源数据挖掘软件 WhereHows :从商业角度讲,WhereHows 的目标是从分布式的多种元数据中进行挖掘

  • 4 月 开源 Hadoop 和 Spark 的性能监控和调优工具——Dr. Elephant :LinkedIn 宣布开源 Dr. Elephant,Dr. Elephant 能够很好地帮助用户理解、分析和优化 Hadoop 和 Spark 的工作流。LinkedIn 在去年第八届 Hadoop Summit 上第一次在社区呈现。

  • 6 月

    • 开源分布式对象存储系统 Ambry ,Ambry 是一个是不可变对象的存储系统,非常易于扩展,它能够存储 KB 到 GB 大小的不可变对象,并且能够实现高吞吐和低延迟,该系统支持跨数据中心的双活部署,并且存储成本低廉。它特别适于存储各种媒体内容
    • 开源机器学习库 Photon :Photon 机器学习支持 Apache Spark,通过结合 Spark 快速处理海量数据的能力和强大的模型训练和诊断工具,Photon 机器学习提供给研究型工程师更多的信息来决策使用哪类推荐系统算法

Amazon

  • 5 月 开源深度学习框架 DSSTNE :亚马逊对于这套软件的性能很有信心,声称在亚马逊的云计算平台上,DSSTNE 比谷歌等竞争对手的计算速度快了 2.1 倍

Google

  • 2 月 发布 TensorFlow Serving 开源项目——更快的将深度学习模型产品商业化:Google 软件工程师 Noah Fiedel 在博文中介绍,“TensorFlow Serving 是一个高性能、开源的机器学习服务系统,为生产环境及优化 TensorFlow 而设计。它更适合运行多个大规模模型,并支持模型生命周期管理、多种算法实验及有效地利用 GPU 资源。TensorFlow Serving 能够让训练好的模型更快、更易于投入生产环境使用
  • 3 月 发布云端机器学习和 Tensor Flow 的 Alpha 测试版本:Google 发布了 alpha 版本的 TensorFlow(TF)集成云端机器学习服务,为回应不断增长的大规模在 Google 云端平台(GCP)运行 Tensor Flow 库的需要
  • 5 月 开源全球最精准自然语言解析器 SyntaxNet :Google 已经发布了开源的 SyntaxNet 自然语言神经网络框架,以帮助机器更好地理解自然语言。SyntaxNet 中包括了 Parsey McParseface,后者是一种专门用于“解剖”英语的语言解析器。Google 称之为世界上最准确的语言解析器,并且已经放出了允许人们借助自有数据来训练 SyntaxNet 的全部代码

Twitter

  • 5 月

    • 正式开源 Heron :去年,Twitter 对外宣布了新的分布式流计算系统 Heron,随后消息称 Twitter 已经用 Heron 替换了 Storm。据文中介绍,Heron 支撑 Twitter 的所有实时分析业务已经有两年多了。它替代了之前使用的 Apache Storm 系统。Heron 有很多架构方面的改进,而且向后兼容 Storm 生态系统
    • 开源分布式高性能日志复制服务 DistributedLog :DL 是一个高性能的日志复制服务,提供了持久化、复制以及强一致性的功能,这对于构建可靠的分布式系统都是至关重要的,如复制状态机(replicated-state-machines)、通用的发布 / 订阅系统、分布式数据库以及分布式队列

其他开源

  • Apache Beam 将统一大数据平台的开发:一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行
  • Apache Apex 成为 Apache 顶级项目:Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目
  • Microsoft 开源其深度学习工具包 CNTK :CNTK 是一个统一的深度学习工具包,它通过一个有向图将神经网络描述为一系列计算步骤。在有向图中,叶节点表示输入值或网络参数,边表示输入之上的矩阵运算。CNTK 使得实现和组合前馈型神经网络 DNN、卷积神经网络(CNN)和循环神经网络 (RNNs/LSTMs) 变得非常容易。实现了支持跨多个 GPU 和服务器自动分化和并行化的随机梯度下降(SGD)学习
  • 雅虎开源可以提升流操作速度的 DataSketches :就像在 Venture Beat 上所宣布的那样,雅虎开源了 DataSketches,这是一个用 Java 编写的随机流算法库。DataSketches 允许进行通常来说开销很大的操作,像计算变量不同的值在流中出现的次数,而且消耗的时间少,占用的内存小,误差可预测
  • 雅虎开源 CaffeOnSpark:基于 Hadoop/Spark 的分布式深度学习:雅虎认为,深度学习应该与现有的支持特征工程和传统(非深度)机器学习的数据处理管道在同一个集群中,创建 CaffeOnSpark 意在使得深度学习训练和测试能被嵌入到 Spark 应用程序
  • OpenAI 发布开源人工智能研究工具集 OpenAI Gym :该工具集用于开发和对比强化学习(RL)算法,这是现代机器学习研究的基础
  • DeepDetect——机器学习框架的 API 统一:DeepDetect 是一个专为深度学习的开源 API 和服务。它的 API 简单直观、易用、通用和易扩展
  • 联合国平行语料 1.0 版发布:联合国平行语料 1.0 版发布,包括阿英西法俄中六种语言,总共 15 个语言对,语料包含了 1990-2014 年的数据,规模都在 1500 万个句对以上

业界动态(国际篇)

综合

开源项目(国内篇)

国内方面,目前在大数据和机器学习方面的开源较少,潜力巨大。比较令人振奋的大事是,去年阿里巴巴正式加入 Apache 基金会,并将 JStorm 项目捐赠给后者。 Apache Storm 2.0 将基于 JStorm 。JStorm 是中国第一个进入 Apache 核心产品的开源项目,对于中国的开源发展来说意义重大。

业界动态(国内篇)

下半年展望

大数据

最值得期待的莫过于 Hadoop 3.0 和 Spark 2.0 正式版的发布。
参见: Hadoop 3.0 新特性预览 Spark 2.0 预览:更简单,更快,更智能

人工智能

随着国内外科技巨头在人工智能“军备竞赛”的日趋白热化,我们有理由相信,下半年会有更多令人振奋的项目 / 产品面世,敬请期待。

周报集锦

作者简介

丁涛是一名软件工程师,目前就职于京东商城。专注于后端 / 服务端开发、架构设计,同时对大数据、移动开发感兴趣。关注硅谷动态,Google 粉儿。

2016-07-18 19:005951
用户头像
丁涛 越努力,越幸运

发布了 35 篇内容, 共 10.8 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

内网穿透的实现原理(附源码)

风斩断晚霞

Java Go 网络编程 Netty 内网穿透

LabVIEW操作鼠标滚轮放大/缩小图像

不脱发的程序猿

图像处理 LabVIEW 鼠标滚轮来放大和缩小图片

LabVIEW虚拟数字示波器

不脱发的程序猿

数据采集 LabVIEW 虚拟示波器 信号发生VI

Seektiger DAO的共识增长计划,锁仓STI长线价值投资

股市老人

Netty实战-实现内网穿透(一)

风斩断晚霞

Java Go Netty 内网穿透

DataPipeline完成B+轮1.2亿元人民币融资,定义基于DataOps理念的下一代数据基础设施

DataPipeline数见科技

开源生态|打造活力开源社区,共建开源新生态!

Orillusion

开源 WebGL 元宇宙 Metaverse webgpu

虎符Hoo重点布局合规 打造安全稳定交易环境

区块链前沿News

国际化 Hoo 合规

JavaScript获取元素的宽高

空城机

JavaScript 5月月更

十二、云原生安全趋势

穿过生命散发芬芳

云原生安全 5月月更

Java Core「5」自定义注解编程

Samson

学习笔记 5月月更 Java core

flask框架关于静态文件及其模板生成

恒山其若陋兮

5月月更

LabVIEW使用移位寄存器计算平均值

不脱发的程序猿

LabVIEW 移位寄存器计算平均值 移位寄存器

Docker下RabbitMQ四部曲之一:极速体验(单机和集群)

程序员欣宸

Java RabbitMQ 5月月更

什么是小程序运行时框架?

Geek_99967b

native 小程序容器 小程序开发

Linux环境显式使用动态库

Loken

音视频 5月月更

AiTalk创始人梁宇淇:镜像连接虚拟与现实的纽带

阿里云弹性计算

vr XR 数字人

阿里云“大算力”支持嬴彻自动驾驶仿真提速 20 倍

阿里巴巴云原生

阿里云 容器 云原生 ACK 客户案例

多个平台显示IP地址:如何看待互联网实名制

石头IT视角

LabVIEW实现Modbus通信

不脱发的程序猿

LabVIEW Modbus 串口通信 VISA 工业通信

DNS解析过程

工程师日月

5月月更

Go Web 编程入门:中间件

宇宙之一粟

中间件 Go web 5月月更

上证数据可视化分析展示-数据分析学习笔记-2

清林情报分析师

数据分析 学习笔记 数据处理 证券 上市公司

LinkedHashMap 源码分析-访问

zarmnosaj

5月月更

基线监控:基于依赖关系的全链路智能监控报警

字节跳动数据平台

监控 SLA 基线检查

经典递归 - 青蛙跳台阶问题

芒果酱

递归 C语言 5月月更

Flutter的特别之处

Geek_99967b

flutter 小程序开发

寻找智能精灵:出海与创新时代的开发者之需

脑极体

搜狐全员遭诈骗,暴露哪些问题?

Authing

身份云 信息 统一身份认证 mfa

怎样让智能电视更加智能

Geek_99967b

小程序 小程序容器 智能电视

【LeetCode】括号的分数Java题解

Albert

LeetCode 5月月更

大数据与机器学习 2016年中盘点_大数据_丁涛_InfoQ精选文章