百度技术沙龙第48期回顾：大规模机器学习

机器学习是人工智能研究领域中一个重要的方向，在现今大数据背景下，面向大数据量的机器学习，通常需要做分布式的算法，并容纳上亿特征和数据。2014年3月15日（周六），在百度技术沙龙第48期上，业内专家将为大家分享Learning to Rank、机器学习和数据挖掘方面的话题和研发成果。欢迎您与我们的讲师做一对一的交流和探讨，百度技术沙龙期待您的到来！

本期讲师介绍

夏粉

广告数据上的大规模机器学习 - 作为广告数据处理的主要工具，机器学习面临着数据量大、模型复杂度高、数据时效性快等问题。一个好的广告匹配系统，需要在解决上述挑战的同时，使用尽可能少的资源挖掘尽可能多的数据价值，提升广告匹配效率。围绕这个目的，本讲以广告点击率预估问题为例，介绍如何利用大规模机器学习技术搭建一个容纳万亿特征数据的、分钟级别模型更新的、自动高效深度学习的、高效训练的点击率预估系统。
王晓博

大数据场景下主题检索模型的应用 - Topic Model起源于99年Hofmann的PLSA模型，在十多年的发展中逐步成为一种成熟的IR检索模型，目前在文本分析、图像聚类以及情感分析中大量使用。通常大家碰到的数据集最多也就是几万到几十万篇文章这个量级，在企业的实际场景中如果遇到亿级数据该如何处理？如何利用有限的计算集群资源处理超大的文集，我们将围绕这一难题向大家介绍LDA主题模型训练系统以及它在线上预测时需要面对的问题和解决办法。