写点什么

百度技术沙龙第 22 期回顾:海量用户的数据挖掘与行为分析(含资料下载)

  • 2012 年 1 月 09 日
  • 本文字数:1951 字

    阅读完需:约 6 分钟

在 1 月 7 日由百度主办、InfoQ 策划组织实施的第 22 期百度技术沙龙活动上,来自百度网页搜索部用户行为分析方向高级工程师彭滔、人人网 Social Graph 算法工程师张叶银分别分享了各自在搜索或推荐算法领域所取得的成果及经验,话题涉及“搜索引擎评估与互联网用户行为分析”,以及“社会化推荐算法在人人网的应用实践”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:搜索引擎评估与互联网用户行为分析视频,MP3 和讲稿下载

来自百度网页搜索部用户行为分析方向高级工程师彭滔第一个为大家分享,彭滔主要工作范围包括搜索排序、算法评估、系统监控、用户建模、流量分析。用他的话来说就是:“与日志有关的一切”。彭滔先是做了搜索引擎如何评估的介绍,接下来分别以史前时代、农耕世代、机器时代为例对比并分析了不同阶段所关注的重点以及评估方法的不同,最后从搜索引擎评估、百度的实践以所要面临的挑战几方面进行了总结。

搜索引擎的评估主要从相关性和角度(快、准、全、新)两个层面来进行,所用到的经典方法有 MAP、DCG、nDCG 和 ERR 等。百度在这块的实践主要可以分为三个阶段:在史前时代,可以称之为“一个人的战斗”,主要依靠 PM Review,搜索评价的工作均由人工完成,在数量和时间上都面临着严峻的考验。其次进入到了农耕时代,利用 CrowdSourcing,倚靠群众的智慧是这个时代的显著特征。百度搜索评测平台应运而生,主要用来解决内部验证、线上小规模实验、迭代和修改以及常规运行与监控。到了机器时代就可以根据用户的真实反馈,直接验证策略的好坏,主要的测试方法有 AB Testing 和 Bucket Testing。其中 AB Testing 的基本流程包括准备实验(模块 + 日志)、流量分配、实验上线和日志分析阶段。彭滔还分享了在海量数据上的经验:

  • 在解读前给出预期
    • 数据可以海量,结论只有一个
  • 检查一切
    • 实验设计
      • 空转:AA Test
      • 反转
    • 环境检查
      • 日志解析的差别
      • 代码效率的差别

最后,彭滔提到目前主要遇到的挑战有:

  • 人工评价 vs.AB Testing 指标存在冲突
  • 交互与社会化元素如何评价
  • 短时用户喜好 vs. 长期用户成长

主题二:社会化推荐算法在人人网的应用实践视频,MP3 和讲稿下载

人人网 Social Graph 算法工程师张叶银第二个为大家分享,演讲主要涵盖主流推荐算法介绍、如何评测推荐系统、重点讲述了 Social Graph 在人人网中的实践情况。张叶银提到目前主流的推荐算法主要有:

  • 协同过滤
    • User-based,Item-based
  • 内容过滤
    • 属性的相关性
  • 社会网络
    • 图的方法

针对推荐系统的评测,主要指准确度、覆盖率、多样性和新颖性等。目前 Social Graph 在人人网主要应用于好友推荐、应用(推荐、隐私控制、新鲜事定制)、个性化推荐(用户偏好、用户兴趣、用户成长),其中好友推荐中主要通过以下几点来分析用户的亲密度:

  • 共同好友数目
  • 个人资料相似程度
  • 用户互动频度
  • 用户的兴趣

从张叶银的演讲中可以看出,在进行推荐算法和应用实践时运用到了大量的数学算法和概念,如采样、集合、取舍抽样、因子分解和贝叶斯推理等。

Open Space(开放式讨论环节)

和以往的环节一样,​为了让参会者能够有更多的时间进行相互的交流,本次活动依然设置了 Open ​Space(开放式讨论)环节。本次邀请到了重量级的嘉宾来同参会者共讨技术话题,除了百度讲师彭滔、人人网张叶银,丁香园 CTO冯大辉酷壳博主、亚马逊中国技术经理陈皓,与非科技 CTO姜太文,百度项目管理部高级架构师乔梁,海豚浏览器 CTO刘铁锋,禅道项目管理软件创始人王春生分别进行了话题分享,同时与参会者分别就各自的话题进行和讨论。在后续的报道中,我们会将本期的专家点评整理成文,进行详细的报道和总结。

会后,一些参会者也通过新浪微博分享了他们的参会感受:​​

@天马星星 sky #百度技术沙龙# 听的就是干货,学到很多东西。

@姜太文:今天下午在#百度技术沙龙#、晚上在车库咖啡介绍了开源硬件与创客空间:开源硬件和创客过去一年多迅速热起;开源硬件的商业模式明确,与物联网的发展契机相合;开源软件的初衷是合作,开源硬件的本质是 fork;开源硬件概念由来已久,甚至比开源软件要早。

@陆菁育:下午去百度沙龙,讲到图论我还能接受,到付立叶就要崩溃了。不过,倒是证明了大学学的基础课不是那么没用的。

@马沛:#百度技术沙龙#很多机器无法判断的,人力又无法企及的海量标识,原来很多情况下是放给了用户对用户的行为进行统计分析来实现的,注意呦,网络上的一些游戏很可能是在进行信息的分类和挖掘环节呢。

网友 @左其盛也在博客中记录了参加沙龙的过程和感受:第22 期百度技术沙龙参会记录:百度ABTesting、人人网好友推荐

有关百度技术沙龙的更多信息,可以通过新浪微博关注** @百度技术沙龙,或者加入百度技术沙龙微群 **,InfoQ 上也总结了过往 22 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览阅读

2012 年 1 月 09 日 02:586200
用户头像

发布了 156 篇内容, 共 46.2 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

ECharts 饼图颜色设置教程 - 4 种方式设置饼图颜色

蒋川

eCharts

朋友圈架构设计

踩着太阳看日出

架构训练营

训练营作业-Module2:朋友圈高性能复杂度分析

Jadedev

架构训练营

RabbitMQ 补偿机制、消息幂等性解决方案

Ayue、

RabbitMQ 4月月更

内容管理系统简史

张泽豪

CMS

Flutter 通过自定义路由拦截实现权限管理

岛上码农

flutter ios 移动端开发 安卓开发 4月月更

PlatoFarm将DAO理念发扬光大,让DAO社区受益才能走得远

小哈区块

RocketMQ—Producer(三)发送方式和消息类型

IT巅峰技术

企业如何度量研发效能?

PingCode

架构实战营【模块二】作业

michael

架构实战营 「架构实战营」

极客星球 | 数据智能公司K8S生产环境落地之监控篇

MobTech袤博科技

K8s 多集群管理

jackson学习之五:JsonInclude注解

程序员欣宸

4月月更

PlatoFarm将DAO理念发扬光大,让DAO社区受益才能走得远

西柚子

Twitter架构决策

俞凡

架构 大厂实践

RocketMQ—Producer(四)消息发送流程

IT巅峰技术

不断挖掘“区块链”更大潜能

CECBC

元宇宙大热,是风口还是虎口

CECBC

招聘 | Bifrost、Gear、Phala Network等多家波卡生态项目招聘区块链开发者

One Block Community

波卡生态 区块链招聘 bifrost gear Phala Network

适合 Kubernetes 初学者的一些实战练习 (六)

Jerry Wang

Docker Kubernetes 云原生 Serverless Kubernetes 4月月更

首期Moonlight Builder Workshop | 如何在 Moonbeam 快速开发和部署 DApp

One Block Community

dapp SBUSUART Moonbeam 波卡生态 Scaffold-ETH

k8s TLS bootstrap解析-k8s TLS bootstrap流程分析

良凯尔

容器 云原生 kubeadm #Kubernetes#

云原生训练营 -Week08

jjn0703

模块二作业 -- 图片字小,可以放大网页观看

库尔斯

百度技术沙龙第22期回顾:海量用户的数据挖掘与行为分析(含资料下载)_百度_贾国清_InfoQ精选文章