红帽白皮书新鲜出炉!点击获取,让你的云战略更胜一筹! 了解详情
写点什么

大数据与机器学习 2016 年中盘点

  • 2016-07-18
  • 本文字数:7198 字

    阅读完需:约 24 分钟

前言
转眼间,公元 2016 年已经过半。人类在大数据和机器学习领域又取得了诸多进展,让我们共同回顾一下。

本文将分以下几个部分进行盘点。
一、里程碑事件
二、开源项目(国际篇)
三、业界动态(国际篇)
四、开源项目(国内篇)
五、业界动态(国内篇)
六、下半年展望
七、周报集锦

里程碑事件

Hadoop 10 岁了!

Hadoop 诞生 10 年了。2006 年 1 月 28 日,Doug Cutting 和 Mike Cafarella 从他们的开源网络爬虫项目(Apache Nutch)中分离出分布式文件系统以及 MapReduce 设施,把它当作一个子项目,并称其为 Hadoop。Doug Cutting 发表了 Apache Hadoop at 10 ,他动情地回顾了自己与 Hadoop 故事,并提出了对未来的展望。

开源项目(国际篇)

Facebook

  • 4 月 为 Facebook Messager 发布了基于 bot 的开发者平台:聊天机器人的目标是最终取代应用。用户不再需要在自己的设备上安装各种应用,而是使用 Messenger 来和各种的聊天机器人交互,从而完成各种任务,目前这些任务都是通过触屏界面由各种应用完成的。聊天机器人主要是依赖语音信息以及人工智能来完成指令

  • 5 月 第一次正式介绍了 FBLearner Flow ,这是一个可以为全公司员工管理机器学习模型的机器学习软件。换句话说,这是一个可以自己制造人工智能的人工智能,你可以理解为传说中的人工智能母体

  • 6 月

    • 开源深度学习框架 Torchnet ,相比其他巨头自己搭建的深度学习框架,Torchnet 更加开放,也将大幅推进深度学习的应用普及
    • 发布文本理解引擎 DeepText ,Facebook 表示,DeepText 能够以“接近人类的精确度”,理解人们的聊天内容。另外,依托后台的计算能力,这一工具每分钟能够分析、识别数千条网友评论或是聊天内容。在语种方面,这一工具已经能够分析 20 多种语言

Linkedin

  • 3 月 开源数据挖掘软件 WhereHows :从商业角度讲,WhereHows 的目标是从分布式的多种元数据中进行挖掘

  • 4 月 开源 Hadoop 和 Spark 的性能监控和调优工具——Dr. Elephant :LinkedIn 宣布开源 Dr. Elephant,Dr. Elephant 能够很好地帮助用户理解、分析和优化 Hadoop 和 Spark 的工作流。LinkedIn 在去年第八届 Hadoop Summit 上第一次在社区呈现。

  • 6 月

    • 开源分布式对象存储系统 Ambry ,Ambry 是一个是不可变对象的存储系统,非常易于扩展,它能够存储 KB 到 GB 大小的不可变对象,并且能够实现高吞吐和低延迟,该系统支持跨数据中心的双活部署,并且存储成本低廉。它特别适于存储各种媒体内容
    • 开源机器学习库 Photon :Photon 机器学习支持 Apache Spark,通过结合 Spark 快速处理海量数据的能力和强大的模型训练和诊断工具,Photon 机器学习提供给研究型工程师更多的信息来决策使用哪类推荐系统算法

Amazon

  • 5 月 开源深度学习框架 DSSTNE :亚马逊对于这套软件的性能很有信心,声称在亚马逊的云计算平台上,DSSTNE 比谷歌等竞争对手的计算速度快了 2.1 倍

Google

  • 2 月 发布 TensorFlow Serving 开源项目——更快的将深度学习模型产品商业化:Google 软件工程师 Noah Fiedel 在博文中介绍,“TensorFlow Serving 是一个高性能、开源的机器学习服务系统,为生产环境及优化 TensorFlow 而设计。它更适合运行多个大规模模型,并支持模型生命周期管理、多种算法实验及有效地利用 GPU 资源。TensorFlow Serving 能够让训练好的模型更快、更易于投入生产环境使用
  • 3 月 发布云端机器学习和 Tensor Flow 的 Alpha 测试版本:Google 发布了 alpha 版本的 TensorFlow(TF)集成云端机器学习服务,为回应不断增长的大规模在 Google 云端平台(GCP)运行 Tensor Flow 库的需要
  • 5 月 开源全球最精准自然语言解析器 SyntaxNet :Google 已经发布了开源的 SyntaxNet 自然语言神经网络框架,以帮助机器更好地理解自然语言。SyntaxNet 中包括了 Parsey McParseface,后者是一种专门用于“解剖”英语的语言解析器。Google 称之为世界上最准确的语言解析器,并且已经放出了允许人们借助自有数据来训练 SyntaxNet 的全部代码

Twitter

  • 5 月

    • 正式开源 Heron :去年,Twitter 对外宣布了新的分布式流计算系统 Heron,随后消息称 Twitter 已经用 Heron 替换了 Storm。据文中介绍,Heron 支撑 Twitter 的所有实时分析业务已经有两年多了。它替代了之前使用的 Apache Storm 系统。Heron 有很多架构方面的改进,而且向后兼容 Storm 生态系统
    • 开源分布式高性能日志复制服务 DistributedLog :DL 是一个高性能的日志复制服务,提供了持久化、复制以及强一致性的功能,这对于构建可靠的分布式系统都是至关重要的,如复制状态机(replicated-state-machines)、通用的发布 / 订阅系统、分布式数据库以及分布式队列

其他开源

  • Apache Beam 将统一大数据平台的开发:一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行
  • Apache Apex 成为 Apache 顶级项目:Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目
  • Microsoft 开源其深度学习工具包 CNTK :CNTK 是一个统一的深度学习工具包,它通过一个有向图将神经网络描述为一系列计算步骤。在有向图中,叶节点表示输入值或网络参数,边表示输入之上的矩阵运算。CNTK 使得实现和组合前馈型神经网络 DNN、卷积神经网络(CNN)和循环神经网络 (RNNs/LSTMs) 变得非常容易。实现了支持跨多个 GPU 和服务器自动分化和并行化的随机梯度下降(SGD)学习
  • 雅虎开源可以提升流操作速度的 DataSketches :就像在 Venture Beat 上所宣布的那样,雅虎开源了 DataSketches,这是一个用 Java 编写的随机流算法库。DataSketches 允许进行通常来说开销很大的操作,像计算变量不同的值在流中出现的次数,而且消耗的时间少,占用的内存小,误差可预测
  • 雅虎开源 CaffeOnSpark:基于 Hadoop/Spark 的分布式深度学习:雅虎认为,深度学习应该与现有的支持特征工程和传统(非深度)机器学习的数据处理管道在同一个集群中,创建 CaffeOnSpark 意在使得深度学习训练和测试能被嵌入到 Spark 应用程序
  • OpenAI 发布开源人工智能研究工具集 OpenAI Gym :该工具集用于开发和对比强化学习(RL)算法,这是现代机器学习研究的基础
  • DeepDetect——机器学习框架的 API 统一:DeepDetect 是一个专为深度学习的开源 API 和服务。它的 API 简单直观、易用、通用和易扩展
  • 联合国平行语料 1.0 版发布:联合国平行语料 1.0 版发布,包括阿英西法俄中六种语言,总共 15 个语言对,语料包含了 1990-2014 年的数据,规模都在 1500 万个句对以上

业界动态(国际篇)

综合

开源项目(国内篇)

国内方面,目前在大数据和机器学习方面的开源较少,潜力巨大。比较令人振奋的大事是,去年阿里巴巴正式加入 Apache 基金会,并将 JStorm 项目捐赠给后者。 Apache Storm 2.0 将基于 JStorm 。JStorm 是中国第一个进入 Apache 核心产品的开源项目,对于中国的开源发展来说意义重大。

业界动态(国内篇)

下半年展望

大数据

最值得期待的莫过于 Hadoop 3.0 和 Spark 2.0 正式版的发布。
参见: Hadoop 3.0 新特性预览 Spark 2.0 预览:更简单,更快,更智能

人工智能

随着国内外科技巨头在人工智能“军备竞赛”的日趋白热化,我们有理由相信,下半年会有更多令人振奋的项目 / 产品面世,敬请期待。

周报集锦

作者简介

丁涛是一名软件工程师,目前就职于京东商城。专注于后端 / 服务端开发、架构设计,同时对大数据、移动开发感兴趣。关注硅谷动态,Google 粉儿。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2016-07-18 19:005369
用户头像
丁涛 越努力,越幸运

发布了 35 篇内容, 共 91043 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

Hadoop hdfs 的shell操作

Emperor_LawD

hadoop Shell 5月月更

开发板上新抢先知!居然可以用来跑游戏?

HarmonyOS开发者

开发板 HarmonyOS

一个小操作,SQL查询速度翻了1000倍。

TiDB 社区干货传送门

去哪儿网MySQL日志分析实践,80%数据丢失都给你救回来!

Qunar技术沙龙

dba

【国产免费】分布式作业批处理ETL平台TASKCTL变量属性设置

TASKCTL

大数据 DevOps 分布式 自动化运维 TASKCTL

区块链系统开发,交易所交易平台搭建

Geek_56201b

TiKV 缩容不掉如何解决?

TiDB 社区干货传送门

给大家科普下如何加盟自助洗车

共享电单车厂家

自助洗车加盟 自助洗车怎么加盟 如何加盟自助洗车

文章插图汇总

武师叔

用上这个 Mock 神器,让你的开发爽上天!

Liam

前端 前端开发 Postman Mock Mock 服务

行业案例| MongoDB在腾讯零售优码中的应用

MongoDB中文社区

mongodb

gRPC服务开发和接口测试初探【Go】

FunTester

从活动能力层建设看业务架构

Qunar技术沙龙

业务架构

加盟自助洗车需要营业执照吗

共享电单车厂家

自助洗车加盟 加盟自助洗车

网站开发进阶(三十三)中文字符编码问题解决总结

No Silver Bullet

异常 5月月更 中文编码

实践GoF的23种设计模式:建造者模式

华为云开发者联盟

Go 设计模式 GoF 建造者模式

第1章-Spring的模块与应用场景

码匠

Java Spring Framework

疫情时代如何提高办公效率?

小炮

网站开发进阶(三十六)String.getBytes()方法中的中文编码问题解决总结

No Silver Bullet

编码 5月月更 getBytes

Redis命令HSCAN踩坑指南

Qunar技术沙龙

dba

解决方案| 阿里云数据库MongoDB版助力餐道显著提升运维效率,打造卓越餐饮/零售服务

MongoDB中文社区

mongodb

龙蜥正式开源 SysOM:百万级实战经验打造!一站式运维管理平台 | 龙蜥技术

OpenAnolis小助手

开源 操作系统 龙蜥社区 SysOM 系统运维SIG

开家自助洗车房需要投资多少钱

共享电单车厂家

自助洗车加盟 开自助洗车店多少钱 开家自助洗车房

自助洗车加盟都要注意哪些事项

共享电单车厂家

自助洗车加盟 自助洗车机厂家 自助洗车品牌

基调听云研发总监杨金全出席CSDN可观测性与APM峰会

基调听云

云原生 APM 可观测性 基调听云

华创视讯加入龙蜥社区,携手共建开源新生态

OpenAnolis小助手

开源 龙蜥社区 CLA 华创视讯 龙腾计划

技术干货| MongoDB如何查询Null或不存在的字段?

MongoDB中文社区

mongodb

建木持续集成平台v2.3.1发布

Jianmu

开源 DevOps 自动化 持续集成 gitops

墨天轮最受DBA欢迎的数据库技术文档-SQL优化篇

墨天轮

MySQL 数据库 oracle postgresql

购买自助洗车机时都要注意哪些

共享电单车厂家

自助洗车机多少钱 自助洗车机价格 自助洗车加盟 购买自助洗车机

Consul的基本使用与集群搭建

神农写代码

大数据与机器学习 2016年中盘点_大数据_丁涛_InfoQ精选文章