百度技术沙龙第 22 期回顾:海量用户的数据挖掘与行为分析(含资料下载)

阅读数:5257 2012 年 1 月 9 日

话题:百度DevOps语言 & 开发架构文化 & 方法算法百度云

在 1 月 7 日由百度主办、InfoQ 策划组织实施的第 22 期百度技术沙龙活动上,来自百度网页搜索部用户行为分析方向高级工程师彭滔、人人网 Social Graph 算法工程师张叶银分别分享了各自在搜索或推荐算法领域所取得的成果及经验,话题涉及“搜索引擎评估与互联网用户行为分析”,以及“社会化推荐算法在人人网的应用实践”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:搜索引擎评估与互联网用户行为分析视频,MP3 和讲稿下载

来自百度网页搜索部用户行为分析方向高级工程师彭滔第一个为大家分享,彭滔主要工作范围包括搜索排序、算法评估、系统监控、用户建模、流量分析。用他的话来说就是:“与日志有关的一切”。彭滔先是做了搜索引擎如何评估的介绍,接下来分别以史前时代、农耕世代、机器时代为例对比并分析了不同阶段所关注的重点以及评估方法的不同,最后从搜索引擎评估、百度的实践以所要面临的挑战几方面进行了总结。

搜索引擎的评估主要从相关性和角度(快、准、全、新)两个层面来进行,所用到的经典方法有 MAP、DCG、nDCG 和 ERR 等。百度在这块的实践主要可以分为三个阶段:在史前时代,可以称之为“一个人的战斗”,主要依靠 PM Review,搜索评价的工作均由人工完成,在数量和时间上都面临着严峻的考验。其次进入到了农耕时代,利用 CrowdSourcing,倚靠群众的智慧是这个时代的显著特征。百度搜索评测平台应运而生,主要用来解决内部验证、线上小规模实验、迭代和修改以及常规运行与监控。到了机器时代就可以根据用户的真实反馈,直接验证策略的好坏,主要的测试方法有 AB Testing 和 Bucket Testing。其中 AB Testing 的基本流程包括准备实验(模块 + 日志)、流量分配、实验上线和日志分析阶段。彭滔还分享了在海量数据上的经验:

  • 在解读前给出预期
    • 数据可以海量,结论只有一个
  • 检查一切
    • 实验设计
      • 空转:AA Test
      • 反转
    • 环境检查
      • 日志解析的差别
      • 代码效率的差别

最后,彭滔提到目前主要遇到的挑战有:

  • 人工评价 vs.AB Testing 指标存在冲突
  • 交互与社会化元素如何评价
  • 短时用户喜好 vs. 长期用户成长

主题二:社会化推荐算法在人人网的应用实践视频,MP3 和讲稿下载

人人网 Social Graph 算法工程师张叶银第二个为大家分享,演讲主要涵盖主流推荐算法介绍、如何评测推荐系统、重点讲述了 Social Graph 在人人网中的实践情况。张叶银提到目前主流的推荐算法主要有:

  • 协同过滤
    • User-based,Item-based
  • 内容过滤
    • 属性的相关性
  • 社会网络
    • 图的方法

针对推荐系统的评测,主要指准确度、覆盖率、多样性和新颖性等。目前 Social Graph 在人人网主要应用于好友推荐、应用(推荐、隐私控制、新鲜事定制)、个性化推荐(用户偏好、用户兴趣、用户成长),其中好友推荐中主要通过以下几点来分析用户的亲密度:

  • 共同好友数目
  • 个人资料相似程度
  • 用户互动频度
  • 用户的兴趣

从张叶银的演讲中可以看出,在进行推荐算法和应用实践时运用到了大量的数学算法和概念,如采样、集合、取舍抽样、因子分解和贝叶斯推理等。

Open Space(开放式讨论环节)

和以往的环节一样,​为了让参会者能够有更多的时间进行相互的交流,本次活动依然设置了 Open ​Space(开放式讨论)环节。本次邀请到了重量级的嘉宾来同参会者共讨技术话题,除了百度讲师彭滔、人人网张叶银,丁香园 CTO冯大辉酷壳博主、亚马逊中国技术经理陈皓,与非科技 CTO姜太文,百度项目管理部高级架构师乔梁,海豚浏览器 CTO刘铁锋,禅道项目管理软件创始人王春生分别进行了话题分享,同时与参会者分别就各自的话题进行和讨论。在后续的报道中,我们会将本期的专家点评整理成文,进行详细的报道和总结。

会后,一些参会者也通过新浪微博分享了他们的参会感受:​​

@天马星星 sky# 百度技术沙龙 # 听的就是干货,学到很多东西。

@姜太文:今天下午在# 百度技术沙龙 #、晚上在车库咖啡介绍了开源硬件与创客空间:开源硬件和创客过去一年多迅速热起;开源硬件的商业模式明确,与物联网的发展契机相合;开源软件的初衷是合作,开源硬件的本质是 fork;开源硬件概念由来已久,甚至比开源软件要早。

@陆菁育:下午去百度沙龙,讲到图论我还能接受,到付立叶就要崩溃了。不过,倒是证明了大学学的基础课不是那么没用的。

@马沛:# 百度技术沙龙 # 很多机器无法判断的,人力又无法企及的海量标识,原来很多情况下是放给了用户对用户的行为进行统计分析来实现的,注意呦,网络上的一些游戏很可能是在进行信息的分类和挖掘环节呢。

网友@左其盛也在博客中记录了参加沙龙的过程和感受:第 22 期百度技术沙龙参会记录:百度 ABTesting、人人网好友推荐

有关百度技术沙龙的更多信息,可以通过新浪微博关注@百度技术沙龙,或者加入百度技术沙龙微群,InfoQ 上也总结了过往 22 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览阅读