写点什么

听 Riley Newman 说 Airbnb 是如何使用数据科学的

  • 2016-01-13
  • 本文字数:1751 字

    阅读完需:约 6 分钟

Airbnb 公司的数据科学领导 Riley Newman 最近发表了一篇文章,详细描述了加利福尼亚创业公司是如何定义和使用数据科学的。他解释说,数据其实就是用户的声音,而数据科学就是对用户行为的最科学解释。此外,他还详细介绍了一些对数据科学规模化很重要的举措,包括与其他团队数据科学家建立直接的合作关系,将数据科学整合进每一个业务流程,并建立一个快速运行且稳定性高的数据基础设施。

Airbnb 在成立初期,其创始人 Brian Chesky,Joe Gebbia 和 Nathan Blecharczyk 常常会亲自与客户和托管商会面,讨论如何改善服务。直至现在公司领导层还是会这么做,但公司现在每年都有 3000 万的客户,和每一个客户保持像之前那样面对面交流已经不现实了。取而代之的是,Airbnb 通过预订平台记录下客户的各种事件和行为,并对这些数据进行分析来了解用户喜欢什么和不喜欢什么。通过这种方式的反馈对于决策“社区成长,产品开发决策、资源优化”等问题是特别有价值的。但要想达到这一目的,首先要对数据进行破译,然后请数据科学家将其翻译成更适合决策的语言。

虽然这和公司历史有着强相关联系,但这种将数据比作“客户声音”和将数据科学家比作“翻译家”的设想很难长期保持下去,尤其是在公司快速增长期间。这篇文章中所描述的许多倡议中,有三个特别突出。

首先,数据科学家不应该被视为被动的数据收集人,而应该直接与其它业务职能进行互动,不仅要充分理解要解决的问题,还要确保决策者能直观的理解他们的分析结果。因此,数据科学家的所作所为将直接影响公司的决策。Airbnb 数据科学团队是由不同子团队协作构成的,合作伙伴可以直接与工程师,设计师,产品经理进行交流互动。

其次,数据和数据科学应该出现在决策过程中的每一个阶段。Airbnb 通常将整个过程分为 4 个阶段:学习、计划、测试和评估;他们每个人都得益于科学数据的不同因素。Rilley 说,“越是严格管理,Airbnb 的脚步就越平稳,公司里的人也就更具有影响力”。

最后,数据科学应该依赖于快速和稳定的基础设施,以减少在数据查询上所花费的时间,并赋予非科学家回答基础数据问题得机会。这在整个业务功能里推进民主化使用数据是极其有用的。

InfoQ 随后采访了 Riley,就 Airbnb 数据科学团队给出了一些见解。

InfoQ:您期望什么样的人才类型加入数据科学团队?

Riley:其实对于人才的招募并没有什么标准的模版,而我们更期待那些具备广泛工作背景且有成功特质的人。具有成功特质的人往往具备这些特性:好奇心,专注细节,高效沟通。当然,了解统计学和 Python 也很重要。

InfoQ:您是如何挑选优秀候选人的?

Riley:根据多年的经验积累,我们在面试过程会尽量将候选人或员工的负面因素最大化,以避免潜在的问题。目前的招聘过程主要是给候选人一些数据,一个宽泛的问题,然后看到他们如何解决。我们会让候选人加入到我们的团队,由团队成员集体根据候选人的问题解决能力、表达能力和相处能力来做评估。优秀的候选人一定会通过具有挑战的项目表现出其出众的特质。

InfoQ: 作为一名数据科学家,您最常用的工具或技术是什么?

Riley:大多数团队会在如下工具上花很多时间:利用 Hive 和 Presto(又名 SQL)从我们的 Hadoop 集群中提取数据,再用 R 和 Python 分析这些数据,用 Tableau 实施可视化处理。那些只知道 SQL 和 Python 的人想要插足数据科学领域,这能奉劝他们还嫩了点!

InfoQ: 在未来几年里,您希望看到那些技术得到长足发展?

Riley:其实这不是一两句话就能说清楚的,根据我们已上线的产品经验来看,我还需要收集更多的数据,并将这些数据转化为可行性较高的预测方案,要对商业决策有借鉴价值。越是接近并加强反馈回路,越是对我们有利。

Rilley 说,回顾在 Airbnb 工作的头五年,评估数据科学的影响力是一件很困难的事,但不久看到强大的基础设施之后,对事件影响力的评估能力不断增加,再加上对数据的系统化利用,使得各种决策的制定都是符合公司发展的。

查看英文原文: Riley Newman on How Airbnb Uses Data Science


感谢艾利特对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2016-01-13 18:001608
用户头像

发布了 25 篇内容, 共 67051 次阅读, 收获喜欢 1 次。

关注

评论

发布
暂无评论
发现更多内容

Nexus3常用功能备忘

程序员欣宸

Java maven nexus3 12月月更

AngularJS进阶(三十七)IE浏览器兼容性后续

No Silver Bullet

AngularJS 12月月更 浏览器兼容 下拉加载

凡泰极客荣获了第二届产业互联高峰论坛「2022年度行业科技创新产品奖」

FinClip

数据安全新战场,EasyMR为企业筑起“安全防线”

袋鼠云数栈

数据安全 大数据基础平台

一文带你读懂 Google GUAC 项目

SEAL安全

Google 软件供应链安全 12 月 PK 榜 GUAC

企业想要提升数据分析能力,还需要选择瓴羊Quick BI

三十

CorelDRAW软件2023最新版本更新下载

茶色酒

CorelDraw2023 CorelDraw

「虚拟社交」爆火,资深玩家「当道」

融云 RongCloud

社交 虚拟形象

现成佛萨奇(2.0)系统开发(源码搭建)

l8l259l3365

构建高性能内存队列:Disruptor yyds~

小小怪下士

Java 高性能

城市云灾备,为业务连续性保驾护航

华为云开发者联盟

云计算 公有云 华为云 政务云 12 月 PK 榜

CleanMyMac4.12Crack版本弹出密码如何解决教程

茶色酒

CleanMyMac CleanMyMac X CleanMyMac X2023

AngularJS进阶(三十六)AngularJS项目开发技巧之利用Service&Promise&Resolve解决图片预加载问题(后记)

No Silver Bullet

项目开发 AngularJS 12月月更

DevEco Studio 3.1差异化构建打包,提升多版本应用开发效率

HarmonyOS开发者

HarmonyOS

Span抽取和元学习能碰撞出怎样的新火花,小样本实体识别来告诉你!

阿里云大数据AI技术

机器学习 12 月 PK 榜 小样本学习

全面支持 PyTorch 2.0:BladeDISC 5月~11月新功能发布

阿里云大数据AI技术

深度学习 编译器 PyTorch 12 月 PK 榜

实测|超融合数据库 MatrixDB 实现百万级 TPS!

YMatrix 超融合数据库

intel OLTP 超融合数据库 YMatrix tpcb

云数据库技术行业动态:ClickHouse Cloud正式GA或有融资;openGauss社区引入新成员

数据库小组

行业资讯 企业动态 产品功能 数据库技术

React源码分析4-深度理解diff算法

goClient1992

React

AngularJS进阶(三十五)浏览器兼容性解决之道

No Silver Bullet

AngularJS 12月月更 浏览器兼容

元年SecDevOps的实践之路

元年技术洞察

数字化转型 趋势研究 方舟平台

11月月更开奖啦!看看获奖名单有没有你?

InfoQ写作社区官方

热门活动

React源码分析6-hooks源码

goClient1992

React

react hook 源码完全解读

flyzz177

React

React源码解读之更新的创建

flyzz177

React

企业的可视化分析能力想要提升,还需要多多关注瓴羊Quick BI

巷子

FLStudio21水果体验版更新下载及功能介绍

茶色酒

flstudio FLStudio21

架构学习笔记1:什么是架构设计?

生活需要激情

架构训练营10期

mysql数据库之schema与数据类型优化

@下一站

程序设计 代码优化 MySQL优化 11月日更 11月月更

React源码分析5-commit

goClient1992

React

React源码解读之任务调度

flyzz177

React

听Riley Newman说Airbnb是如何使用数据科学的_大数据_Jérôme Serrano_InfoQ精选文章