大数据与机器学习周报 第 9 期:Google 开源全球最精准自然语言解析器 SyntaxNet

  • 丁涛

2016 年 5 月 16 日

话题:大数据语言 & 开发架构机器学习

新闻

  1. 《Google 开源全球最精准自然语言解析器 SyntaxNet》:Google 已经发布了开源的 SyntaxNet 自然语言神经网络框架,以帮助机器更好地理解自然语言。SyntaxNet 中包括了 Parsey McParseface,后者是一种专门用于“解剖”英语的语言解析器。Google 称之为世界上最准确的语言解析器,并且已经放出了允许人们借助自有数据来训练 SyntaxNet 的全部代码

  2. 《Facebook 首次公开其机器学习平台 FBLearner Flow》:Tensorflow 凭“谷歌”“开源”两个标签自 2015 年底发布以来便名震深度学习圈。而前年底 Facebook 就打造其专属 ML 平台 FBLearner Flow,大幅提高员工工作效率。今天,FB 工程师首次披露该平台细节,公司意欲进一步提高速度、效率,迈向 ML 自动化。虽然目前仍限内部使用,但不排除 FB 这款“Flow”未来也将开源。两大巨头的两股“Flow”如何较量?先从了解 FBLearner Flow 开始

  3. 《亚马逊开源深度学习工具 DSSTNE》:亚马逊决定,跟随谷歌的脚步将自己的深度学习软件开源。当然,亚马逊的这套深度学习系统目前还有很大的局限性,比如不支持卷积神经网络,这导致了它不能用于图像识别,对于递归神经网络也支持不佳。然而,这套软件最大的亮点在于能同时支持两个图形处理器(GPU)参与运算,这是其他深度学习工具做不到的。亚马逊对于这套软件的性能很有信心,声称在亚马逊的云计算平台上,DSSTNE 比谷歌等竞争对手的计算速度快了 2.1 倍

大数据

  1. 《用实例讲解 Spark Sreaming》:数据流是一个数据持续不断到达的无边界序列集。流式处理是把连续不断的数据输入分割成单元数据块来处理。流式处理是一个低延迟的处理和流式数据分析。本篇文章用 Spark Streaming +Hbase 为列,Spark Streaming 专为流式数据处理,对 Spark 核心 API 进行了相应的扩展

  2. 《什么是数据科学? 如何把数据变成产品?》:据哈尔•瓦里安 (HalVarian) 说,统计学家是下一个性感的工作。五年前,在《什么是 Web 2.0》里蒂姆•奥莱利 (Tim O’Reilly) 说“数据是下一个 Intel Inside”。但是这句话到底是什么意思? 为什么我们突然间开始关注统计学和数据? 在这篇文章里,我会检视数据科学的各个方面,技术、企业和独特技能集合

  3. 《案例 :数据驱动精准化营销在大众点评的实践》:精准化营销一直以来都是互联网营销业务在细分市场下快速获取用户和提高转化的利器。在移动互联网爆发的今天,数据量呈指数增长,如何在移动和大数据场景下用数据驱动进行精准营销,从而提高营销效能,成为营销业务部门的主要挑战之一,同时也是大数据应用的一个重要研究方向。本文通过数据体系架构和技术实现案例,分享美团大众点评数据应用团队在这个方向上的一些尝试和实践经验

  4. 《Spark 性能优化指南》:在大数据计算领域,Spark 已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark 的功能涵盖了大数据领域的离线批处理、SQL 类处理、流式 / 实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用 Spark。大多数同学 (包括笔者在内),最初开始尝试使用 Spark 的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高

机器学习

  1. 《NLP 技术在音乐产品的应用:Spotify 战胜 Apple Music 的计划》:通过爬虫抓取点评音乐的网站与博客,用自然语言处理,分析出可能会走红的不知名的音乐人的作品;加上对用户听音乐行为的分析;再加上公司里的 32 个全职编辑的(手动)加持,精选出金曲新人榜(Fresh Finds)-- 这样能战胜 Apple Music?

  2. 《人工智能风潮,近年 AI 企业竞相被收购》:在过去的 3 年中有超过 20 家致力于人工智能的私人企业被大公司竞相收购。Google, Amazon, Apple, IBM, Yahoo, Facebook, Intel 等企业也位列抢购名单之中。截至目前,仅 2016 年已有 4 家人工智能企业被收购

  3. 《Siri 创始团队展示新一代语音助手 Viv,只办业务不聊天》:近日,给苹果语音助手取名 “Siri”、前 Siri 的创始成员 Dag Kittlaus 近日在纽约展示了全新项目 -- 智能语音助手 Viv,声称将成为 “一起事情的智能交互入口”。(“the intelligent interface for everything.”)

  4. 《微软人工智能雄心 浅析 R 语言变化之路 》:以即将在6月 1 日发布的 SQL Server 2016 为代表,微软近期一系列动作大有将偏数据科学的 R 语言全面融入产品的雄心。为什么微软要把一门开放资源程序语言融入其最赚钱的旗舰商业数据库?总体看这与公司定位有关:微软已经决定,下一代的由云驱动的计算将以数据驱动的智能为特征,不管是平台、应用还是设备


感谢杜小芳对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

大数据语言 & 开发架构机器学习