NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

谷歌大脑:正在改变谷歌帝国的利器

  • 2014-07-24
  • 本文字数:1735 字

    阅读完需:约 6 分钟

对于一个互联网公司来讲,枯燥的数据标注工作是家常便饭。数据组经常花费大把的时间盯着屏幕,来标注所见数据的好坏、种类和重要性等等,用来提升应用的用户体验和广告点击率。互联网巨头谷歌也不能免俗,例如在其门牌号识别的项目中,就有很多工程师整日重复上述过程,面对屏幕,判断看到的图片是不是门牌号,然后标注结果。门牌号识别对于谷歌地图服务来讲是很重要的一部分,能够提供精确到大厦门牌号的导航会带来非常好的用户体验,然而,对于这些标注数据的员工来将,应用的重要度反而加重了他们标注工作的繁重度,意味着他们需要更加仔细的来辨认本来就很难区分的电话号码、胡乱的涂鸦和门牌号。

这种会让人歇斯底里的工作,在前几周得到了改善,据连线杂志报道,谷歌公司的一些员工训练出了一种机器学习算法,来辅助甚至代替标注员的工作。这并不是一种新的尝试,而传统的学习方法往往效果差强人意。但是,这一次,工程师采用了一套新的人工智能系统克服了以往的问题,这就是谷歌大脑系统。有了这个系统,街景地址识别的效率得到了极大的提升,法国街景团队提供的地址数据在一小时内就被谷歌大脑系统完成了地址识别。在这个过程中,机器学习算法起到决定性的作用,难怪业界都说谷歌公司不是一个搜索公司,而是一个机器学习公司。

谷歌大脑系统,三年前诞生于谷歌神秘X 实验室,此后一直处于内测状态,传闻中的无人驾驶汽车、广告点及系统、谷歌街景等都萌发自此实验室。其目标就是为软件工程师提供一流的机器学习算法,用于公司的各类业务中。和常规的项目不同,谷歌大脑可以看做是谷歌公司迈向一个全新领域的尝试,一如上一个十年它的创始人通过搜索和大规模广告系统开创天下一样的新颖。除了上文所述的地址识别以外,谷歌大脑还被用于其Android 手机的语音识别以及G+ 社交网络的图像搜索任务。谷歌大神Jeff Dean 声称现在谷歌内部大概有30-40 个项目在使用谷歌大脑系统,有一些已经产品化,有一些在初步尝试,与现有系统比较,都的到了比较乐观的结果。谷歌公司在大脑系统上的发力,可以看做是公司研发策略转向一种新的称作“深度学习”的人工智能方法的尝试。站在同一起跑线的,还有Facebook、微软、IBM、百度等巨头。竞争非常激烈,连线杂志近日报道,微软公司名为Adam 的深度学习系统,在其学术峰会上首次出现在公众面前。其亮点在于,识别种类更多,而使用的机器少一个数量级。和谷歌大脑不同,Adam 并不试图达到算法的极致,而是致力于解决计算性能的优化。百度公司也在今年发布了自己的深度学习战略,主要用于图片搜索和广告点击率预测。

谷歌公司在深度学习上的发力可以追溯至2011 年斯坦福教授吴恩达教授(现任百度研究院院长)加入“射月”实验小组开始,最早的报道来自纽约时报。此后的一年,纽约时报再次报道,吴教授所在团队通过一个1 万6 千台计算机的集群,通过模仿人脑思考模型,成功的基于1 亿张Youtube 截图教会了算法识别一只猫,同年,Android 手机语音识别的错误率降低了惊人的25%。然后谷歌公司就开始了一轮深度学习专家收购战,去年雇佣了著名的Geoff Hinton 教授,以及他的DNNResearch 公司,还斥资4 亿美元收购了深度学习游戏公司DeepMind。

有了深度学习,工程师可以构建从某种程度上模仿人脑学习的软件模型。然后在现有的海量数据上进行训练、调试最终施展于新的应用上。模型具有很好的重用特性,谷歌图片搜索训练的图片识别模型,也可以帮助谷歌地图。能改进搜索引擎结果的文字分析模型也可以帮助Google+。在谷歌的内网上,已经有相当数量的深度学习模型分享出来,Jeff Dean 团队负责其后端,而应用团队则负责提供相应的数据。机器学习模型的构建和训练是非常复杂的,需要多年的积累,但是使用却没有那么难。整个使用过程非常简单,下载源代码,调整一个配置文件,给出自己的数据,运行。

正如当年谷歌发布分布式模型MapReduce,最后造就了开源版本Hadoop,如日中天的谷歌大脑项目,正不断的以论文等形式进入大众开发者视野,下一个开源大脑会是什么样子?让我们拭目以待。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-07-24 21:432865
用户头像

发布了 268 篇内容, 共 118.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

C++模板进阶

可口也可樂

c++ 模板 10月月更

C++栈/队列/堆使用及模拟

可口也可樂

c++ 数据结构 10月月更

用昇腾AI护航“井下安全”

华为云开发者联盟

人工智能 安全 华为云 企业号十月 PK 榜

假如问:你是怎样优化Vue项目的,该怎么回答

bb_xiaxia1998

Vue

C++基础IO流

可口也可樂

c++ IO流 10月月更

西安java开发培训学习哪家机构好

小谷哥

大数据培训机构该怎么来选择?

小谷哥

React源码解读之更新的创建

flyzz177

React

前端安全沙箱怎样解决开源的安全问题

Geek_99967b

小程序

Linux---Linux中Ubuntu镜像之下搭建FTP服务

木偶

Linux ubuntu ftp 10月月更

优秀开源云原生工具推荐——系列3

HummerCloud

开源 云原生 开源云工具 10月月更

前端常见手写面试题(持续更新中)

helloworld1024fd

JavaScript

【一Go到底】第二十六天---数组入门

指剑

Go golang 10月月更

教你如何解决T+0的问题

华为云开发者联盟

大数据 华为云 企业号十月 PK 榜

嵌入式 Linux 入门(五、Shell 脚本编程上:认识 Shell 脚本)

矜辰所致

Linux Shell shell脚本编程 10月月更

怎样徒手写一个React

helloworld1024fd

JavaScript

看完这份SpringBoot神级文档,面试真的可以为所欲为

程序知音

Java spring JAVA开发 springboot 后端技术

整个汽车产业链,都能“挤上”这朵云?

白洞计划

react hook 源码完全解读

flyzz177

React

北京大数据学习培训机构哪个好

小谷哥

欢迎光临2022年的汽车穿梭餐厅

澳鹏Appen

人工智能 语音识别 数据标注 语音标注 语音数据

这次彻底读透 Redis

说故事的五公子

缓存 redis 底层原理

手写JS函数的call、apply、bind

helloworld1024fd

JavaScript

极客时间架构训练营模块三作业

李晨

武汉前端编程培训的就业前景怎么样

小谷哥

弹性伸缩,轻松上云-华为云弹性云服务器 ECS

清欢科技

前端技术培训需要什么条件

小谷哥

SHAREit X Databend | 跨多云 Data Mesh 大数据平台: Why, What and How

Databend

写过vue自定义指令吗,原理是什么?

bb_xiaxia1998

Vue

10分钟完成模型开发!合合信息智能文字识别服务平台亮相1024程序员节

合合技术团队

人工智能 文档 识别 摩尔纹

盘点 | 主流跨平台软件开发技术方案

Speedoooo

小程序 APP开发 跨端开发 小程序容器 小程序化

谷歌大脑:正在改变谷歌帝国的利器_语言 & 开发_张天雷_InfoQ精选文章