【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

Google 大脑团队 2016 年度回顾

  • 2017-02-02
  • 本文字数:3644 字

    阅读完需:约 12 分钟

Google 大脑团队的长远目标是,创造更智能的软件系统以改善人类生活,并通过各种不同领域纯粹的应用型研究来实现。尽管这明显是一个长期目标,但我们想退回一步,回顾团队去年的一些进步,并分享我们对 2017 年的期许。

研究成果发表

评价研究质量的一个重要方式,就是通过在国际顶级机器学习会议,比如 ICML NIPS ICLR 上发表成果。过去的一年,我们的团队在这些会议上有 27 篇论文被接受,涵盖诸多话题,包括程序化网络间的知识传递机器学习模型的分布式训练语言模型生成无监督机器学习自动化定理证明更好的神经网络理论理解强化学习的算法改进 等等。还有更多的论文被其他领域的会议接受,比如自然语言处理的 ACL CoNNL 大会,语音的 ICASSP ,视觉的 CVPR ,机器人的 ISER 和计算机系统的 OSDI 大会。我们团队还提交了 34 篇论文给即将召开的 ICLR 2017,这是一个深度学习研究的顶级会议。可以通过这里了解我们在这些论文中的工作。

自然语言理解

我们研究的关键领域之一,是让计算机更好地理解人类语言。2014 年末,大脑团队的三位研究人员发表了一篇关于序列到序列的神经网络学习( Sequence to Sequence Learning with Neural Networks )的论文,论证了机器翻译技术的可行性。2015 年,我们展示了这项技术也可以用于生成图片标题语句分析,以及求解计算几何问题。到了2016 年,这项前瞻研究(有了更大的提升)前所未有地让大脑团队成员与Google 翻译团队紧密协作,最终用一个完整的端到端学习系统(研究论文)全部替代了Google 翻译开发的翻译算法。这个新系统弥补了旧系统和人类优质翻译之间的差距,对于一些语言间的翻译目前高达85% 的准确率。几周后,我们展示了该系统是如何做到“ zero-shot tranaslate ”的,即无翻译样本情景下的学习翻译(研究论文)。该系统目前已部署在Google 翻译的生成环境,且支持越来越多的语言之间的翻译,为用户提供更高质量的翻译,让人们消除语言隔阂更加高效地沟通。Gideon Lewis-Kraus 撰文“ The Great A.I. Awakening ”介绍了这项翻译杰作(以及深度学习和 Google 大脑团队的历史),这篇深度文章于 2016 年 12 月发表在纽约时报杂志。

机器人技术

商业机器人控制算法是非常谨慎和精细地手工编程,并且因为意味着给机器人带来新的能力,所以通常是一个非常辛苦的过程。我们相信更好的解决方案是,让机器人通过机器学习自动化地学习并获得新技能。去年,我们与 Google X 团队的研究人员合作,展示了机械臂如何通过学习手眼协调,总结它们的经验以更快地自学(研究论文)。我们的机器人在研究期间完成了大约800,000 个很有把握的尝试。年末,我们发掘了3 种可能的可行方案来学习新技能:通过强化学习、通过交互学习,以及通过演示学习。我们将沿此目标继续努力,让机器人能灵活便捷地学习新任务,并运行在复杂的真实环境中。为帮助其他机器人技术研究人员,我们开放了多个机器人数据集

医疗卫生

有可能通过机器学习来增强医生和医疗从业者的能力,这让我们非常兴奋。仅仅作为一个可能性示例,发表在美国医学会会刊( JAMA )上的一篇论文,展示了一个机器学习驱动的诊断系统通过一张视网膜图像进行糖尿病视网膜病变诊断,其能力已经与一个认证的眼科专家相当。如果无法发现糖尿病视网膜病变的早期症状,那么超过4 亿人可能有失明风险,但很多国家只有极少的眼科专家在进行筛选,而这项技术能帮助确保更多的人得到筛选。在其他医学图像领域我们也在做一些工作,并且在研究机器学习应用于其他更多医学预测任务方面。我们相信机器学习能提升医患医疗体验的质量和效率,2017 年在这个领域我们会有更多的工作进展可以介绍。

音乐和艺术创作

科技往往会帮助人们更好地创作和分享多媒体——比如印刷出版、电影或电声吉他。去年我们启动了一个叫 Magenta 的项目,来挖掘艺术和机器智能间的可能性,以及使用机器学习系统来激发人类创造性的可能性。从音乐和图片生成开始,发展到诸如文本生成和VR 等领域,Magenta 在内容创作模型的生成方面有着最先进的水平。我们帮助组织了一个关于此话题的一日座谈会,并支持了一场机器生成艺术的艺术展。在音乐生成艺术风格转换方面,发掘了大量的话题,我们的jam session 演示赢得了NIPS 2016 的最佳展示奖

AI 安全与公正

开发更加强大和复杂的 AI 系统并应用到现实世界的方方面面时,我们想确保这些系统是很安全和公正的,而且还想构建工具来帮助人类更好地理解它们产生的输出。在 AI 安全领域,由 Stanford、Berkeley 和 OpenAI 参与的跨机构合作中,我们发表了关于AI 安全具体问题的白皮书(参见这里的博客文章)。该论文概述了一些特定问题和领域,相信有一些真正基础的研究会在AI 安全领域得到解决。我们在其中一个安全方面取得了进展,即训练数据中的隐私保护,获得差异化的隐私担保,其中大部分是近期通过知识转移技术获得。除了安全之外,当开始信赖AI 系统来做更复杂和精准的决策时,我们想确认这些决策是公正的。在一篇关于有监督学习中机会均等的论文(参见这里的博客文章)中,我们揭示了如何最优化调整任意训练过的预测器来避免偏见和歧视,文章通过基于FICO 信用分的一个案例研究说明了这一点。为了让这项工作更易理解,我们还创建了一个可视化产品,来辅助说明,并交互式地探索论文中的观点

TensorFlow

2015 年 11 月我们开源了TensorFlow 的初始版本,以便机器学习社区的其他同仁能从中受益,同时大家一起合作共同提升。2016 年TensorFlow成为Github 上最受欢迎的机器学习项目,超过570 名开发者提交了10,000 多条评论。 TensorFlow 的知识库模型受益于社区贡献也获得了成长,目前单单在 Github 上就有超过5000 个TensorFlow 相关的代码仓库。此外,TensorFlow 已被知名研究机构和大型企业包括 DeepMind 广泛采纳和应用,甚至有一些特殊的应用场景,比如在澳新地区搜寻还牛,和在日本分拣黄瓜

我们做了大幅的性能提升,并增加了对分布式训练的支持,还把TensorFlow 带到了 iOS 树莓派(Raspberry Pi) Windows 平台上,甚至集成 TensorFlow 到广泛使用的大数据基础设施中。同时还衍生出了 TensorBoard 项目,这是一个 TensorFlow 的可视化系统,带有一些可视化计算图形嵌入式的改进工具。还让TensorFlow 可以通过 Go 、Rust Haskell 语言来访问,发布了最先进的图像分类模型 Wide 和 Deep 、答复了来自 Github StackOverflow TensorFlow 邮件列表里的数千个问题。 TensorFlow Serving 简化了产品环境中 TensorFlow 模型的服务流程,为了在云端完成这些工作, Google Cloud Machine Learning 也提供了托管的 TensorFlow 服务。

去年 11 月我们庆祝了TensorFlow 开源一周年,并在最早的计算机系统研究会议之一的 OSDI 上,发表了 TensorFlow 的计算机系统全貌的论文。在与 Google 编译器团队同事的合作中,我们致力于 TensorFlow 的一个后端编译器,叫做 XLA ,它的一个 alpha 版本近期已加入了开源发布中

机器学习社区参与

在教育指导如何进行机器学习,以及如何实施该领域的研究方面,我们也在努力。去年1 月份,Vincent Vanhoucke 作为大脑团队的研究带头人之一,与Udacity 合作开发并上线了一门免费的在线深度学习课程博客通知)。我们还整合了 TensorFlow Playground ,一个有趣的交互系统,用来帮助人们更好的理解并可视化地说明,通过神经网络学习来完成任务有多简单。

6 月份我们迎来了第一批共 27 位 Google 大脑居民(Google Brain Residents),从超过 2200 个申请者中选拨出来,他们在7 个月中主导完成了令人瞩目的原创研究,帮助发表了21 篇研究论文。8 月份,很多大脑团队成员参加了Google 大脑团队的Reddit AMA(随意提问),就r/MachineLearning 话题回答了很多关于机器学习和我们团队的社区提问。截止年底,我们在团队中累计接收了46 位实习生(大部分是博士研究生),他们与其他成员一起开展研究工作。

在Google 中传播机器学习

除了上文提到的面向公众活动之外,我们持续在Google 内部通过很多产品团队,来传播机器学习的专业知识和思想,以确保公司作为一个整体,能充分地利用到任何新显现的机器学习研究的优势。举其中一个例子,我们曾与平台团队密切协作,为Google’s Tensor Processing Unit(TPU)提供规格说明和高水准得分,TPU 是一个定制的机器学习加速器ASIC,Google I/O 上曾提到过。这个定制芯片提供一个能极大提升机器学习工作负载的指令,广泛应用于我们的很多产品,包括 RankBrain 、近期上线的神经机器翻译系统,以及去年三月在韩国与李世石比赛的 AlphaGo

总而言之,对于 Google 大脑团队、各个合作方,以及 Google 内外的同仁们,2016 是令人振奋的一年,同时期待 2017 年我们的机器学习研究会有突破性进展!

查看英文原文: https://research.googleblog.com/2017/01/the-google-brain-team-looking-back-on.html


感谢刘志勇对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-02-02 18:002495

评论

发布
暂无评论
发现更多内容

Fabarta 参加 2023 数云原力大会,与各方共同发布《2023 数据资产盘点实践白皮书》

Fabarta

数据要素 数据资产管理 数据资产化 数据要素流通

从零开始打造一款基于SpringBoot+SpringCloud的后台权限管理系统

做梦都在改BUG

Java Spring Cloud Spring Boot 权限管理

ZeroErr 零误框架

西风逍遥游

2023 年最新 Java 面试必背八股文,1338 道最新大厂架构面试题

架构师之道

Java 面试

数据库外网ip binlog主从配置

Java你猿哥

Java MySQL 后端 ssm

Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting、Self-Consistency等;项目实战搭建知识库内容机器人

汀丶人工智能

人工智能 深度学习 ChatGPT prompt learning

中建信息亮相华为中国合作伙伴大会2023

Geek_2d6073

膜拜!阿里内部都在强推的K8S(kubernetes)学习指南,不能再详细了

做梦都在改BUG

Java Kubernetes k8s

Django基本数据访问

测吧(北京)科技有限公司

测试

面试官:说说 WebSocket 和 Socket 及 Http 的区别?

Java你猿哥

Java TCP ssm HTTP webSock

微信小程序二维码文件流上传到OSS解决方法

北桥苏

php OSS thinkphp

耗时一个月,整理了这份大厂Java面试 / 学习指南,共计1500+ 题全面解析

采菊东篱下

Java 程序员

中国20强(上市)游戏公司2022年财报分析:营收结构优化,市场竞争进入白热化

易观分析

公司 游戏

Alibaba技术专家倾心五年打造!Java工程师成神之路(基础篇)

做梦都在改BUG

Java

大厂工作四年Java经验总结了学习路线规划,所有私藏资料我都贡献出来了

Java你猿哥

Java Spring Boot JVM java基础 java面

【源码分析】【seata】at 模式分布式事务-server端与客户端交互

如果晴天

源码分析 分布式事务 分布式锁 seata Seata框架

网页版超强ChatGPT插件应用ZipZap来了,每日免费10K Token足够使用

Ricky

openai ChatGPT GPT-4

国内商业BI工具介绍,瓴羊Quick BI、帆软怎么样

流量猫猫头

Windows本地搭建RabbitMQ Server

北桥苏

Rabbit MQ RabbitMQ安装

大模型时代入场级技能:提示词工程!百度文心中文教程来啦

飞桨PaddlePaddle

百度飞桨

AntDB数据库携手金蝶Apusic应用服务器, 共促信创产业繁荣发展

亚信AntDB数据库

AntDB AntDB数据库 企业号 5 月 PK 榜

重磅来袭!微服务的里程碑SpringCloudAlibaba

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

以数据思维和技能提升数据应用测试实践 | 京东云技术团队

京东科技开发者

测试 测试覆盖率 数据思维 应用安全测试 企业号 5 月 PK 榜

夺冠秘诀?华为软件精英挑战赛两届冠军这样复盘比赛经验

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 5 月 PK 榜

Django查询、删除、更新数据

测吧(北京)科技有限公司

测试

MySQL主从配置+ThinkPHP5分布式数据库

北桥苏

MySQL 分布式 thinkphp

Java面试题大全(整理版)1000+面试题附答案详解最全面看完稳了

Java你猿哥

Java MySQL redis mybatis java面试

跑步课程导入能力,助力科学训练

HMS Core

HMS Core

Elasticsearch分布式搜索引擎的基本使用

北桥苏

php elasticsearch

开源轻量级 IM 框架 MobileIMSDK 的Uniapp客户端库已发布

JackJiang

网络编程 即时通讯 即时通讯IM

PCB如何设计防静电?华秋一文告诉你

华秋电子

Google大脑团队2016年度回顾_Google_ Jeff Dean_InfoQ精选文章