【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

Sibyl: 来自 Google 的大规模机器学习系统

  • 2014-07-10
  • 本文字数:915 字

    阅读完需:约 3 分钟

在上周的 IEEE/IFIP 可靠系统和网络(DSN)国际会议上,Google 的软件工程师 Tushar Chandra 做了一个关于 Sibyl 系统的主题演讲。Sibyl 是一个监督式机器学习系统,用来解决预测方面的问题,比如YouTube 的视频推荐。

Tushar 主题演讲的题目是“Sibyl:一个用于大规模监督式机器学习的系统”。作为一个靠广告盈利的搜索引擎公司,Google 每时每刻都在千方百计的努力理解用户的行为,从而投放更精准的广告。在不同的场景下,用户对于不同信息的反映是不同的,Sibyl 的目标就是要学习在这些场景下,什么样的信息能够得到最好的用户反映,然后用机器学习模型来计算展示什么样的内容和广告。

这里机器学习技术主要用在改善内容和用户的相关度,帮助网站主改善站点投放广告的强度,避免恶意广告以及改善广告主的回报率等等。而大规模则是指每天一亿次访问。这样量级访问的业务在 Google 这样的大公司里比比皆是,如其搜索,视频,邮件,手机系统,Google+ 等业务。在采用了机器学习技术以后(通常着力于改善算法的准确性),业绩提升有 10% 左右,基本是工业界的最佳实践。

在讲稿中,Tushar 给出了 Sibyl 的系统架构,如下图所示:

讲稿中还向听众报告了 Sibyl 系统的现状:用了很多理论上很扎实的机器学习算法,如著名的并行 Boosting 算法,还带有很多损失函数以及规范化方法,解决了很多互联网全网量级的问题,使用的资源请求在合理范围内。Sibyl 系统所采用的技术也是业界流行的:在可扩展问题上采用了 MapReduce 技术,在并行计算上采用了多核多线程技术,在海量数据存储上采用了 Google 文件系统(GFS),在数据压缩上采用了面向列的数据格式,在模型训练上充分使用内存(类似 Spark 的思想)。Tushar 还尤其给出了多个业务数据在系统中进行训练的过程和实例数字。

最后,Tushar 对大规模机器学习系统设计做了一些展望,如要有一个清晰的流水线,数据预处理、训练、使用等要隔离,开发可以分析 TB 量级数据的工具,以及加入非监督学习(深度学习之类)的算法模型。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-07-10 11:033509
用户头像

发布了 268 篇内容, 共 118.1 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

科兴未来 | 2023年SCIP绿色化学化工创新创业大赛!

科兴未来News

CAD迷你看图 for Mac(MiniCAD) v4.4.5中文特别版

mac

苹果mac Windows软件 CAD迷你看图 设计软件

互助公排模式系统功能及矩阵开发设计

V\TG【ch3nguang】

互助 公排模式

BackupLoupe for Mac(数据还原备份工具)v3.9中文版

mac

苹果mac Windows软件 数据备份工具

Apache IoTDB:更适合工业物联网场景的新型数据库,存、查、用不再是难题

Apache IoTDB

如果你越来越冷漠

宇文辰皓

与信创国产化高度适配的低代码开发框架

力软低代码开发平台

鹏云块存储在多副本情况下,如何兼顾数据一致性和效率?

鹏云网络

分布式系统 数据强一致性 副本一致性 分布式存储,

响应式编程——初识 Flux 和 Mono

emanjusaka

Java 响应式编程 后端

软博会,2024上海国际软件产品展览会|世亚软博会

AIOTE智博会

软件博览会 软件展会 软博会 世亚软博会 软件展览会

OSCS开源安全周报第 57 期:Smartbi windowUnloading限制绕过导致远程代码执行

墨菲安全

网络安全 安全漏洞 oscs

区块链上增发代币发行合约系统搭建开发

V\TG【ch3nguang】

智能合约 代币

移动应用高级语言开发——并发探索

OpenHarmony开发者

OpenHarmony

软件测试/测试开发丨Web自动化测试策略

测试人

Python 程序员 软件测试 自动化测试 测试开发

合约一键跟单软件开发,币安欧意交易所合约跟单API量化机器人搭建

V\TG【ch3nguang】

量化交易机器人开发 合约跟单 币安智能链

报名开启丨邀你一起探索云端 AI 新兴技术和发展模式

TRaaS

共创共赢,天翼云携手用友打造商业创新一体化解决方案!

天翼云开发者社区

云计算 AI 数据治理

2023-08-28:用go语言编写。给你一个正整数数组nums, 同时给你一个长度为 m 的整数数组 queries。 第 i 个查询中,你需要将 nums 中所有元素变成 queries[i] 。

福大大架构师每日一题

福大大架构师每日一题

服务网格实施周期缩短 50%,丽迅物流基于阿里云 ACK 和 ASM 的云原生应用管理实践

阿里巴巴云原生

阿里云 云原生 服务网格 容器服务

数字藏品交易平台App开发,数字藏品系统源码搭建

V\TG【ch3nguang】

数字藏品开发 数字藏品app

阿里云 X 森马 AIGC T 恤设计大赛开启!穿什么由你定,赢 Airpods,作品定制联名T恤

阿里巴巴云原生

阿里云 云原生 AIGC

《揭秘软件开发文档:你的项目管理必备利器》

金陵老街

开发文档

GaussDB技术解读系列:高安全之密态等值

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

低代码平台:IT开发的一种重要方式

树上有只程序猿

系统开发 低代码开发 JNPF 传统开发

AI 狂飙,云端 IDE 如何书写未来?TVP 吐槽大会邀您来论道

CODING DevOps

Elasticsearch最佳实践:如何保证你的数据安全

腾讯云大数据

Elastic Search

[ K8s Operator 开发完整教程-1 ] kind创建本地K8s集群

baiyutang

云原生 k8s operator PaaS

HarmonyOS Codelab 优秀样例——购物应用,体验一次开发多端部署魅力

HarmonyOS开发者

HarmonyOS

低代码助力加速构建应用程序

高端章鱼哥

低代码开发 应用程序 JNPF

身为程序员,你有哪些提高写代码效率的工具?

这我可不懂

Google 代码编写 AI编码

想解决技术债,你要先学会如何量化它

互联网工科生

程序员 敏捷开发 技术债 敏捷宣言

Sibyl: 来自Google的大规模机器学习系统_语言 & 开发_张天雷_InfoQ精选文章