大数据与机器学习周报 第 11 期:Facebook 发布人工智能产品 DeepText

  • 丁涛

2016 年 6 月 13 日

话题:大数据语言 & 开发架构机器学习AI

业界新闻

  1. 《Facebook 发布人工智能产品 DeepText:能以人类智商识别聊天内容》:Facebook 表示,DeepText 能够以“接近人类的精确度”,理解人们的聊天内容。另外,依托后台的计算能力,这一工具每分钟能够分析、识别数千条网友评论或是聊天内容。在语种方面,这一工具已经能够分析 20 多种语言

  2. 《谷歌人工智能系统 TensorFlow 开始支持 iOS》:继 2015 年 11 月 9 日 Google 发布人工智能 (AI) 系统平台 TensorFlow 并宣布开源后,近日谷歌再次针对 iOS 系统平台发布了特别版 TensorFlow。据称,特别版 TensorFlow 将首先登陆 iPhone,届时 iPhone 将可以运行更为复杂的应用。但是目前的 iOS 版 TensorFlow

    0.9 还是早期开发版,尚不清楚 iOS 版 TensorFlow 正式版何时发布

  3. 《华为 Carbondata 成为 Apache Incubator(孵化器)项目》:恭喜华为独立开发并开源的 Carbondata 通过 Apache 基金会的投票,成为 Apache Incubator(孵化器)项目!Carbondata 的目标是创建一种新的 Hadoop 文件格式,只用一份数据,满足多样化的数据查询需求,包括顺序读,OLAP 查询,随机读。 右边是 CarbonData 在 Github 上的 Wiki

  4. 《联合国平行语料 1.0 版发布》:联合国平行语料 1.0 版发布,包括阿英西法俄中六种语言,总共 15 个语言对,语料包含了 1990-2014 年的数据,规模都在 1500 万个句对以上

技术干货

  1. 《涨姿势:百度地图的工程师都是如何利用 Apache Kylin 处理数据的》:百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条 SQL 毫秒级响应的 OLAP 多维分析查询服务

  2. 《京东基于 Spark 的风控系统架构实践和技术细节》:互联网行业中,通常使用风控系统抵御这些恶意访问。在技术层面上来讲,风控领域已逐渐由传统的“rule-base”(基于规则判断)发展到今天的大数据为基础的实时 + 离线双层识别。Hadoop,Spark 等大数据大集群分布式处理框架的不断发展为风控技术提供了有效的支撑

  3. 《初创公司大数据平台架构演进之路》:越来越多的公司开始采用大数据技术解决方案,而其中就包括了很多创业公司。对于创业公司来说,如何设计出更合适的大数据方案以满足不断变化的需求,也就自然而然的成为了一个必须要思考问题

  4. 《大数据架构师必读的 NoSQL 建模技术》:为了适应大数据应用场景的要求,Hadoop 以及 NoSQL 等与传统企业平台完全不同的新兴架构迅速地崛起。而下层技术基础的革命必将影响上层建筑:数据模型和算法。简单地将传统基于第四范式结构化关系型数据库的模型拷贝到新的引擎上,无异于削足适履,不仅增加了大数据应用开发的难度和复杂度,又无法发释放新框架的潜能

  5. 《解密 Meson:如何支持 Netflix 机器学习工作流?》:Netflix 的目标是能预测顾客之所想观看的电影,即推荐预测。为了做到这一点,每天会运行大量机器学习工作流,而为了支撑创建这么多机器学习工作流和有效利用资源,Netflix 的工程师开发了 Meson

  6. 《剖析 Linkedln 遭遇的 Kafka“危机故障”》:Apache Kafka 在 LinkedIn 是作为各种数据管道和异步消息的后端被使用的。除了 LinkedIn,Netflix 和 Microsoft 也是 Kafka 的重量级使用者(Four Comma Club,每天万亿级别的消息量)

深度观点

  1. 《重磅 | Facebook 首次将 29 层深度卷积网络用于自然语言处理,性能与深度成正比(附论文)》:在许多自然语言处理任务中起到主导地位的方法是循环神经网络(RNN,尤其是长短时间记忆网络,LSTM)和卷积神经网络(ConvNets)。然而,相比于深度卷积网络在计算机视觉领域中取得的巨大成功,这些网络结构还是太过浅层了。我们提出了一种直接在字符级别上进行文本处理的新结构,但仅仅用了很少的卷积和池化操作。我们的实验结果表明模型的性能与网络深度成正比,一直用到 29 层卷积层,在多个文本分类任务中取得了重大的效果提升

  2. 《深度|机器人大军如何助力亚马逊帝国攻城略地》:亚马逊由于使用机器人,工作岗位增多,这同时可能意味着,那些输掉市场份额给亚马逊的竞争企业的工作岗位正在减少


感谢杜小芳对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

大数据语言 & 开发架构机器学习AI