写点什么

Sibyl: 来自 Google 的大规模机器学习系统

  • 2014-07-10
  • 本文字数:915 字

    阅读完需:约 3 分钟

在上周的 IEEE/IFIP 可靠系统和网络(DSN)国际会议上,Google 的软件工程师 Tushar Chandra 做了一个关于 Sibyl 系统的主题演讲。Sibyl 是一个监督式机器学习系统,用来解决预测方面的问题,比如YouTube 的视频推荐。

Tushar 主题演讲的题目是“Sibyl:一个用于大规模监督式机器学习的系统”。作为一个靠广告盈利的搜索引擎公司,Google 每时每刻都在千方百计的努力理解用户的行为,从而投放更精准的广告。在不同的场景下,用户对于不同信息的反映是不同的,Sibyl 的目标就是要学习在这些场景下,什么样的信息能够得到最好的用户反映,然后用机器学习模型来计算展示什么样的内容和广告。

这里机器学习技术主要用在改善内容和用户的相关度,帮助网站主改善站点投放广告的强度,避免恶意广告以及改善广告主的回报率等等。而大规模则是指每天一亿次访问。这样量级访问的业务在 Google 这样的大公司里比比皆是,如其搜索,视频,邮件,手机系统,Google+ 等业务。在采用了机器学习技术以后(通常着力于改善算法的准确性),业绩提升有 10% 左右,基本是工业界的最佳实践。

在讲稿中,Tushar 给出了 Sibyl 的系统架构,如下图所示:

讲稿中还向听众报告了 Sibyl 系统的现状:用了很多理论上很扎实的机器学习算法,如著名的并行 Boosting 算法,还带有很多损失函数以及规范化方法,解决了很多互联网全网量级的问题,使用的资源请求在合理范围内。Sibyl 系统所采用的技术也是业界流行的:在可扩展问题上采用了 MapReduce 技术,在并行计算上采用了多核多线程技术,在海量数据存储上采用了 Google 文件系统(GFS),在数据压缩上采用了面向列的数据格式,在模型训练上充分使用内存(类似 Spark 的思想)。Tushar 还尤其给出了多个业务数据在系统中进行训练的过程和实例数字。

最后,Tushar 对大规模机器学习系统设计做了一些展望,如要有一个清晰的流水线,数据预处理、训练、使用等要隔离,开发可以分析 TB 量级数据的工具,以及加入非监督学习(深度学习之类)的算法模型。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-07-10 11:033974
用户头像

发布了 268 篇内容, 共 131.4 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

一次基于Fastjson的JNDI注入

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞挖掘

Linux中 dir 命令还能这样玩!

wljslmz

Linux 11月月更

跟着卷卷龙一起学Camera--信号采样01

卷卷龙

ISP camera 11月月更

这样回答前端面试题才能拿到offer

loveX001

JavaScript

Vue组件入门(十五)异步组件

Augus

vue3.0 11月月更

设计模式之美-面向对象、设计原则、设计模式、编程规范、重构的关系

GalaxyCreater

设计模式

从2开始,在Go语言后端业务系统中引入缓存

闫同学

Go 设计 后端 11月月更

从1开始,扩展Go语言后端业务系统的RPC功能

闫同学

后端 go语言 11月月更

极速体验docker容器健康

程序员欣宸

容器化 docekr 11月月更

企业级业务架构设计:方法论与实践 学习笔记

程序员架构进阶

业务架构 TOGAF 11月日更 Zachman

promise执行顺序面试题令我头秃,你能作对几道

loveX001

JavaScript

圆满落幕!回顾 eBPF 技术的发展与挑战

OpenAnolis小助手

Linux 云原生 ebpf 云栖大会 龙蜥社区

跟着卷卷龙一起学Camera--MIPI 03

卷卷龙

ISP camera 11月月更

跟着卷卷龙一起学Camera--信号采样02

卷卷龙

ISP camera 11月月更

一文了解openEuler SIG组角色划分与管理运作

openEuler

开源

我上了个假“中台”!

雨果

数据中台

StarRocks 技术内幕 | Join 查询优化

StarRocks

数据库

从0开始,用Go语言搭建一个简单的后端业务系统

闫同学

后端 go语言 11月月更

如何在知乎平台上做营销推广:推荐几种引流方式

石头IT视角

433MHz自发电无线控制器

不脱发的程序猿

物联网 嵌入式 无线通信 ​433MHz自发电无线开关

2022-11-03:给定一个数组arr,和一个正数k 如果arr[i] == 0,表示i这里既可以是左括号也可以是右括号, 而且可以涂上1~k每一种颜色 如果arr[i] != 0,表示i这里已经确

福大大架构师每日一题

算法 rust 福大大

MySQL能力全开放,OceanBase 社区版 4.0 正式上线

OceanBase 数据库

📢利用Vite插件助力证书安装

小鑫同学

前端 插件 11月月更

史海峰:成为技术领导者 从技术到管理的必经之路丨声网开发者创业讲堂 • 第 5 期

声网

技术管理 人工智能’

【LeetCode】最长递增子序列的个数Java题解

Albert

算法 LeetCode 11月月更

详解CAN总线:CAN总线通信优先级机制

不脱发的程序猿

汽车电子 CAN总线 详解CAN总线 CAN总线通信优先级机制 CAN优先级

设计模式之美-代码评价标准

GalaxyCreater

设计模式

互联网安全体制的挑战与机遇

阿泽🧸

互联网安全 11月月更

简述机器学习库

穿过生命散发芬芳

机器学习 11月月更

专访微盟CTO黄骏伟:WOS将为去中心化商业提供一整套数字基建

B Impact

Ansible 部署的时候提示错误 SSH password instead

HoneyMoose

Sibyl: 来自Google的大规模机器学习系统_语言 & 开发_张天雷_InfoQ精选文章