2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Sibyl: 来自 Google 的大规模机器学习系统

  • 2014-07-10
  • 本文字数:915 字

    阅读完需:约 3 分钟

在上周的 IEEE/IFIP 可靠系统和网络(DSN)国际会议上,Google 的软件工程师 Tushar Chandra 做了一个关于 Sibyl 系统的主题演讲。Sibyl 是一个监督式机器学习系统,用来解决预测方面的问题,比如YouTube 的视频推荐。

Tushar 主题演讲的题目是“Sibyl:一个用于大规模监督式机器学习的系统”。作为一个靠广告盈利的搜索引擎公司,Google 每时每刻都在千方百计的努力理解用户的行为,从而投放更精准的广告。在不同的场景下,用户对于不同信息的反映是不同的,Sibyl 的目标就是要学习在这些场景下,什么样的信息能够得到最好的用户反映,然后用机器学习模型来计算展示什么样的内容和广告。

这里机器学习技术主要用在改善内容和用户的相关度,帮助网站主改善站点投放广告的强度,避免恶意广告以及改善广告主的回报率等等。而大规模则是指每天一亿次访问。这样量级访问的业务在 Google 这样的大公司里比比皆是,如其搜索,视频,邮件,手机系统,Google+ 等业务。在采用了机器学习技术以后(通常着力于改善算法的准确性),业绩提升有 10% 左右,基本是工业界的最佳实践。

在讲稿中,Tushar 给出了 Sibyl 的系统架构,如下图所示:

讲稿中还向听众报告了 Sibyl 系统的现状:用了很多理论上很扎实的机器学习算法,如著名的并行 Boosting 算法,还带有很多损失函数以及规范化方法,解决了很多互联网全网量级的问题,使用的资源请求在合理范围内。Sibyl 系统所采用的技术也是业界流行的:在可扩展问题上采用了 MapReduce 技术,在并行计算上采用了多核多线程技术,在海量数据存储上采用了 Google 文件系统(GFS),在数据压缩上采用了面向列的数据格式,在模型训练上充分使用内存(类似 Spark 的思想)。Tushar 还尤其给出了多个业务数据在系统中进行训练的过程和实例数字。

最后,Tushar 对大规模机器学习系统设计做了一些展望,如要有一个清晰的流水线,数据预处理、训练、使用等要隔离,开发可以分析 TB 量级数据的工具,以及加入非监督学习(深度学习之类)的算法模型。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-07-10 11:033944
用户头像

发布了 268 篇内容, 共 130.6 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

消息队列基本原理和选型对比

C++后台开发

中间件 消息队列 后端开发 C/C++后台开发 C/C++开发

java 环境的搭建原来如此简单,我这小白看完也学会了,建议收藏【带附件】

CRMEB

合合信息技术专家受邀出席RACV2022,探索计算机视觉与图形学未来增量

合合技术团队

计算机视觉 计算机

兆骑科创双创赛事,线上直播路演,投融资对接

兆骑科创凤阁

三大云厂商 ARM 架构服务器性能对比

API7.ai 技术团队

AWS API网关 arm架构 云厂商

怎么理解后App时代的轻应用技术

FN0

App 小程序容器 轻应用 快应用

秋招大厂必备面试题!Java八股文背诵版已助569人入职大厂

退休的汤姆

Java、 面经 社招 面试八股文 秋招+

《数字经济全景白皮书》绿色金融篇 重磅发布!

易观分析

数字经济 山东

动态尺寸模型优化实践之Shape Constraint IR Part I

阿里云大数据AI技术

深度学习 编译器

mybatis基础的crud

Geek_5829b6

Java mybatis

秒验丨iOS端SDK 集成指南

MobTech袤博科技

xcode iOS SDK 秒验

阿里云无影发布生态共荣计划,携手伙伴推动终端算力上云

阿里云弹性计算

阿里云 生态链 无影云电脑

Solana上的结算协议龙头,Zebec潜力颇受看好

股市老人

服务稳定性保障中的五大误解

华明

运维 SRE 服务监控 稳定性保障

数据说|济青,两座“数字经济新一线城市”如何发力?

易观分析

数字经济 山东

软硬皆施!Github上爆火2022最新Java面试宝典简直总结的太全了!

程序员小毕

Java 程序员 面试 找工作 简历

零基础如何通过前端技术培训学习

小谷哥

关起门来搞开源,做不了开源世界的Leader

源字节1号

开源 软件开发

从阿里云全球实时传输网络GRTN出发,浅谈QOE优化实践

阿里云CloudImagine

边缘计算 直播 边缘云 全球加速

mybatis添加日志并打印sql

Geek_5829b6

Java mybatis

mybatis foreach的使用

Geek_5829b6

Java mybatis

软件测试100天上岸2-测试必须有策略

和牛

测试 8月月更

兆骑科创双创服务平台,高层次人才引进,线上直播路演

兆骑科创凤阁

加密市场由阴转晴,Zebec或成2022后半段黑马

鳄鱼视界

mybatis入门案例

Geek_5829b6

Java 数据库 mybatis

企业应用现代化实用教程 | 如何快、准、狠地进行应用容器化改造?

York

容器 云原生 数字化转型 架构设计 应用现代化

面试官:你理解的互联网高性能Web架构是咋样的?

程序员小毕

Java 程序员 架构 面试 程序人生

阿里妈妈展示广告引擎新探索:迈向全局最优算力分配

阿里技术

经验分享 算力 性能提升

SLF4J多个jar在类路径问题

Geek_5829b6

Java 日志

数据说|发力数字经济,山东这两座城市如何变道超车?

易观分析

数字经济 山东

Sibyl: 来自Google的大规模机器学习系统_语言 & 开发_张天雷_InfoQ精选文章