百度技术沙龙第48期回顾:大规模机器学习

机器学习是人工智能研究领域中一个重要的方向,在现今大数据背景下,面向大数据量的机器学习,通常需要做分布式的算法,并容纳上亿特征和数据。2014年3月15日(周六),在百度技术沙龙第48期上,业内专家将为大家分享Learning to Rank、机器学习和数据挖掘方面的话题和研发成果。欢迎您与我们的讲师做一对一的交流和探讨,百度技术沙龙期待您的到来!

本期讲师介绍

  • 夏粉

    广告数据上的大规模机器学习 - 作为广告数据处理的主要工具,机器学习面临着数据量大、模型复杂度高、数据时效性快等问题。一个好的广告匹配系统,需要在解决上述挑战的同时,使用尽可能少的资源挖掘尽可能多的数据价值,提升广告匹配效率。围绕这个目的,本讲以广告点击率预估问题为例,介绍如何利用大规模机器学习技术搭建一个容纳万亿特征数据的、分钟级别模型更新的、自动高效深度学习的、高效训练的点击率预估系统。

  • 王晓博

    大数据场景下主题检索模型的应用 - Topic Model起源于99年Hofmann的PLSA模型,在十多年的发展中逐步成为一种成熟的IR检索模型,目前在文本分析、图像聚类以及情感分析中大量使用。通常大家碰到的数据集最多也就是几万到几十万篇文章这个量级,在企业的实际场景中如果遇到亿级数据该如何处理?如何利用有限的计算集群资源处理超大的文集,我们将围绕这一难题向大家介绍LDA主题模型训练系统以及它在线上预测时需要面对的问题和解决办法。

内容回顾


现场图片展示

  • 茶歇期间参会者求知若渴与讲师交流
  • 讲师和参会者晒礼品啦
  • openspace1小时的自由交流也不够大家用