【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

谷歌大脑:正在改变谷歌帝国的利器

  • 2014-07-24
  • 本文字数:1735 字

    阅读完需:约 6 分钟

对于一个互联网公司来讲,枯燥的数据标注工作是家常便饭。数据组经常花费大把的时间盯着屏幕,来标注所见数据的好坏、种类和重要性等等,用来提升应用的用户体验和广告点击率。互联网巨头谷歌也不能免俗,例如在其门牌号识别的项目中,就有很多工程师整日重复上述过程,面对屏幕,判断看到的图片是不是门牌号,然后标注结果。门牌号识别对于谷歌地图服务来讲是很重要的一部分,能够提供精确到大厦门牌号的导航会带来非常好的用户体验,然而,对于这些标注数据的员工来将,应用的重要度反而加重了他们标注工作的繁重度,意味着他们需要更加仔细的来辨认本来就很难区分的电话号码、胡乱的涂鸦和门牌号。

这种会让人歇斯底里的工作,在前几周得到了改善,据连线杂志报道,谷歌公司的一些员工训练出了一种机器学习算法,来辅助甚至代替标注员的工作。这并不是一种新的尝试,而传统的学习方法往往效果差强人意。但是,这一次,工程师采用了一套新的人工智能系统克服了以往的问题,这就是谷歌大脑系统。有了这个系统,街景地址识别的效率得到了极大的提升,法国街景团队提供的地址数据在一小时内就被谷歌大脑系统完成了地址识别。在这个过程中,机器学习算法起到决定性的作用,难怪业界都说谷歌公司不是一个搜索公司,而是一个机器学习公司。

谷歌大脑系统,三年前诞生于谷歌神秘X 实验室,此后一直处于内测状态,传闻中的无人驾驶汽车、广告点及系统、谷歌街景等都萌发自此实验室。其目标就是为软件工程师提供一流的机器学习算法,用于公司的各类业务中。和常规的项目不同,谷歌大脑可以看做是谷歌公司迈向一个全新领域的尝试,一如上一个十年它的创始人通过搜索和大规模广告系统开创天下一样的新颖。除了上文所述的地址识别以外,谷歌大脑还被用于其Android 手机的语音识别以及G+ 社交网络的图像搜索任务。谷歌大神Jeff Dean 声称现在谷歌内部大概有30-40 个项目在使用谷歌大脑系统,有一些已经产品化,有一些在初步尝试,与现有系统比较,都的到了比较乐观的结果。谷歌公司在大脑系统上的发力,可以看做是公司研发策略转向一种新的称作“深度学习”的人工智能方法的尝试。站在同一起跑线的,还有Facebook、微软、IBM、百度等巨头。竞争非常激烈,连线杂志近日报道,微软公司名为Adam 的深度学习系统,在其学术峰会上首次出现在公众面前。其亮点在于,识别种类更多,而使用的机器少一个数量级。和谷歌大脑不同,Adam 并不试图达到算法的极致,而是致力于解决计算性能的优化。百度公司也在今年发布了自己的深度学习战略,主要用于图片搜索和广告点击率预测。

谷歌公司在深度学习上的发力可以追溯至2011 年斯坦福教授吴恩达教授(现任百度研究院院长)加入“射月”实验小组开始,最早的报道来自纽约时报。此后的一年,纽约时报再次报道,吴教授所在团队通过一个1 万6 千台计算机的集群,通过模仿人脑思考模型,成功的基于1 亿张Youtube 截图教会了算法识别一只猫,同年,Android 手机语音识别的错误率降低了惊人的25%。然后谷歌公司就开始了一轮深度学习专家收购战,去年雇佣了著名的Geoff Hinton 教授,以及他的DNNResearch 公司,还斥资4 亿美元收购了深度学习游戏公司DeepMind。

有了深度学习,工程师可以构建从某种程度上模仿人脑学习的软件模型。然后在现有的海量数据上进行训练、调试最终施展于新的应用上。模型具有很好的重用特性,谷歌图片搜索训练的图片识别模型,也可以帮助谷歌地图。能改进搜索引擎结果的文字分析模型也可以帮助Google+。在谷歌的内网上,已经有相当数量的深度学习模型分享出来,Jeff Dean 团队负责其后端,而应用团队则负责提供相应的数据。机器学习模型的构建和训练是非常复杂的,需要多年的积累,但是使用却没有那么难。整个使用过程非常简单,下载源代码,调整一个配置文件,给出自己的数据,运行。

正如当年谷歌发布分布式模型MapReduce,最后造就了开源版本Hadoop,如日中天的谷歌大脑项目,正不断的以论文等形式进入大众开发者视野,下一个开源大脑会是什么样子?让我们拭目以待。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-07-24 21:432863
用户头像

发布了 268 篇内容, 共 118.1 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

什么是可信云?通过可信云评估意味着什么?

行云管家

可信云

玩转Github:三分钟教你如何用 Github 快速找到优秀的开源项目

程序知音

Java GitHub 编程语言 后端技术

真下饭!字节技术官DDD(领域驱动设计)手册,拆解业务代码首选

做梦都在改BUG

Java 架构 领域驱动设计 DDD

华为云开源项目OpenTiny的TinyNG组件库的设计理念是什么?

英勇无比的消炎药

前端 开源项目 OpenTiny UI组件库

Gartner最新报告,分析超大规模边缘解决方案

阿里云视频云

云计算 边缘计算 边缘云

成都开发者Meetup|聚焦云原生开源,点亮企业创新活力

阿里巴巴云原生

阿里云 容器 微服务 云原生

SpringBoot整合RocketMQ,老鸟们都是这么玩

做梦都在改BUG

Java RocketMQ Spring Boot

又搞事!阿里400页JDK并发源码指南,再次被GitHub置顶了!

做梦都在改BUG

Java jdk 多线程 高并发 源码剖析

文献管理软件:EndNote 20 v20.5激活版

真大的脸盆

Mac Mac 软件 文献管理 文献管理工具

简化你的代码,提高生产力:这10个Lambda表达式必须掌握

做梦都在改BUG

Java Lambda

大模型高效开发的秘密武器:大模型低参微调套件MindSpore PET

华为云开发者联盟

人工智能 华为云 大模型 华为云开发者联盟 企业号 4 月 PK 榜

面试官:说一说mysql的varchar字段最大长度?

程序员小毕

MySQL 数据库 程序员 面试 架构师

软件测试/测试开发丨H5性能分析实战

测试人

软件测试 性能测试 自动化测试 H5 W3C

Apifox:API 接口自动化测试完全指南

Apifox

测试 自动化测试 测试工具 接口工具免费 免费工具

喜讯!索信达荣获CCSA TC601年度“优秀成员单位”

索信达控股

【重磅发布】易观千帆用户体验分析产品领先版正式发布

易观分析

金融 银行 用户分析

如何用 YonBuilder 构建线索管理应用?

YonBuilder低代码开发平台

详解事务模式和Lua脚本,带你吃透Redis 事务

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

华为云发布多项场景化解决方案助力制造业企业加速上云

IT科技苏辞

雀氏牛,Alibaba分布式微服务成长手册,GitHub已开源

做梦都在改BUG

Java 分布式 微服务

一份深入解析Java虚拟机HotSpot手册,让我卷成美团架构师

程序知音

Java JVM java架构师 hotspot Java进阶

探索网络世界的核心:TCPIP协议四层模型解析

做梦都在改BUG

Java 计算机网络 网络协议 TCP/IP

“字节”再次起跳!内部651页剖析HotSpot 源码手册,GitHub已开源

做梦都在改BUG

Java JVM 虚拟机 hotspot

MySQL数据库和Redis缓存一致性的更新策略

做梦都在改BUG

Java MySQL 数据库 redis 缓存

LED显示屏十大应用领域值得你收藏

Dylan

LED显示屏 户外LED显示屏 户内led显示屏

阿里P8架构师20年经验总结成微服务设计企业架构转型之道笔记

程序知音

Java 微服务 java架构 Java进阶 后端技术

云原生:驱动企业数字化新模式

北京好雨科技有限公司

云原生 数字化 rainbond 企业号 4 月 PK 榜

企业云管平台是什么?有什么用?

行云管家

云计算 云管理 云管

[直播预告]行云管家堡垒机V7.0版本说明会

行云管家

行云管家

特斯拉和OpenAI的加持,马斯克简直人生赢家

这我可不懂

人工智能 低代码 马斯克 新能源

构建系列之前端脚手架vite

江湖修行

Vue vite cli

谷歌大脑:正在改变谷歌帝国的利器_语言 & 开发_张天雷_InfoQ精选文章