GMTC全球大前端技术大会(北京站)门票9折特惠截至本周五,点击立减¥480 了解详情
写点什么

佘坤:大数据在努比亚的应用

2019 年 10 月 07 日

佘坤:大数据在努比亚的应用

我们每一天都在使用手机,手机成为大家日常离不开的一样物品。

手机的数据在后台是怎样处理和运作的?

成千上万条数据又是怎么被筛选和分类的?

手机使用过程中极致快速的体验从何而来?


NIUDAY 深圳站中,努比亚技术有限公司互联网产品开发部部长佘坤博士为大家分享了“大数据在努比亚的应用”。



大数据在努比亚的应用

01 传统手机厂商做互联网业务有一定的特殊性

互联网公司在最初创立时,都会为自己的产品选择一个用户群体。但绝大部分用户是与手机用户高度重合的,作为互联网企业,没有办法去选择自己的用户。


以努比亚为例,99.9% 都是努比亚的用户。一方面,是有好处的。基于努比亚手机品牌的定位,用户群体非常优质,其中平均年龄大概在 26 - 28 岁,男性占多数。也就是说,游戏可以很好的卖给这些用户。但另一方面,却没办法选择自己的用户。因此,做业务就只能是基于更好的理解用户。


从互联网业务开启之初,努比亚就把基于用户洞察的精细化经营作为互联网的根本策略。


02 大数据是实施经营策略的关键工具

大数据已经深入到各个层次的产品体系,在大数据发展的目标金字塔里:



最基础的是数据基础平台。把用户在手机上产生的海量数据收集并加以加工,为用户提供唯一的标识,对各个业务的运行情况进行监控。比如你的用户是稳步增长还是增长受挫,以及基于此的用户体验。


其次是精细化的经营和运营。比如个性化推荐,是基于对用户的了解,选取我们或合作伙伴的潜在客户,精准地把产品信息通过广告送达给他们。


再上一层是市场洞察。基于对用户和业界的了解,努比亚能输出一些手机市场或者业务市场的行业分析报告。努比亚不是专业的数据公司,这样的报告虽然不会成为一个专门的产品,但可以给手机内部了解市场提供很好的参考。


再接着是经营分析。努比亚的大数据平台,不光是服务于互联网业务,也服务于整个手机产品。基于趋势分析可以了解到,比如:某一款手机在市场上反应如何?它是否要推出下一代?这个系列是否有很好的市场潜力?


最后是公司的战略分析,也是基于大数据平台做出的。


03 努比亚的大数据平台

基于以上的发展目标,在努比亚体系里,大数据平台成为了独立的产品。


大数据平台的产品架构及产品模块:


完整体系是:从基础的计算平台、数据采集、分析、开发和管理以及基于此上的分析工具。像各个业务的一些经营报表,都是通过大数据平台生成。应用引擎的重点是搜索、广告、推荐等,目前已经集成到各个业务模块中。整个业务是以这样的产品模块组成的。


大数据平台的业务架构:


业务架构说明大数据平台自身业务的组成情况,这里有接入服务、存储和计算、平台服务、产品层。努比亚的各个互联网业务体系相互之间是关联的,包括帐号和监控系统,都是和大数据平台紧密结合在一起,从而实现前面讲到的发展目标。


大数据平台的技术架构:


关于技术架构,很多技术是业界通用的,这里用的是一个比较成熟的方案。在此基础之上,主要做的工作:一方面是把它进行集成,另一方面是进行优化。比如调度,努比亚本身的用户规模还不算太大,服务器规模也并不大,现在基本是基于云主机。怎么样充分利用云上的计算资源,是一个很重要的课题。接触过大数据的都知道,数据计算量是非常大的,因此我们在任务调度、计算引擎上做了大量优化工作,之后会给到一组数字,是关于本身在性能上的情况。



大数据平台现在是作为努比亚内部的一个系统,服务于努比亚自身的业务。但同时,为了自身业务部署开发的效率,也开发了一套给内部用的开发系统。一般的业务,关于大数据处理的需求,都可以利用上图所示的这套在线的基于 Web 的开发工具,通过组件的整合,完成相应的逻辑开发工作。


这是对性能进行优化的结果。目前大数据平台这个产品,投入的资源并不多:总共用了 9 台云主机。目前获得的性能已经在产品层面支撑起 50 个业务产品,总的数据量为 600T,每日新增数据 500G,计算任务是 2000 个。


基于最初大数据平台的产品目标,对用户的洞察和理解也是最重要的目标之一。现在的大数据平台,已经具备了对用户自动识别出相应标签的能力。比如像性别、年龄、教育程度,包括消费信用水平、家里是否有小孩,这样的用户标签可以通过用户数据进行识别。这些用户标签可以进一步使得本身的互联网业务更加智能,像推荐、广告以及社区服务,能更加精准贴近用户的需要。


下图为详细支持的标签属性:



04 基于大数据平台的业务案例:应用推荐

关于应用推荐,所有应用市场都有这个功能。我们的应用推荐支持以下几个方面:


第一,猜你喜欢。根据用户之前的应用下载使用情况,推荐可能感兴趣的应用。


第二,相似推荐。比如你下载了一个王者荣耀,跟王者荣耀相似的有哪些应用。


第三,拓展推荐。安装了这个游戏的用户,还喜欢一些什么应用。


从各种维度向你进行推荐。这是业务应用推荐本身的能力。


应用推荐的模块架构:


这个架构分为几个层次:


第一,候选级,形成召回集合。这里会综合利用以下数据,比如历史、实时、用户偏好,根据的是 CF,协同过滤,或者 CB,基于内容的推荐。也会利用行业热门或者相关信息,热门就是将下载最多的推荐给用户。这一层次最重要的是形成用户推荐级、候选级。


第二,是对候选级进行过滤。比如按照历史情况,已经下载安装了,就把它从机会里去掉,或者根据性别,例如男性对游戏和应用有明显的偏好,或者根据年龄、负行为反馈,比如你删了一类应用,这类应用就不会再推了。然后排序,第一屏被点击的可能性是最大的,再往后翻两三屏,基本不会再点击。一屏就只有 5 - 7 个应用,因此把用户最有可能喜欢和点击的应用排在前面非常重要。


第三,是 Rank,基于的算法是 CTR 和 CVR 的预估。CTR 是点击转化率,CVR 是点击价值率,即点击之后购买的比率。


第四,是融合层。一些被运营干预的排序结果,在融合层可以进行干预。


最后是 Rerank,进行最后的调整。基于自定义规则或者 Badcase 进行调整,或者多样化。比如应用推荐,某个用户很喜欢游戏,但却不能推荐的全是游戏,里面可以插入一些用户感兴趣的应用。或者如果连着几个都是同一类的游戏太单调,中间可以把排序结果打乱,插入其他类型,使得结果相对多样化。


应用推荐的技术流程:


为什么说它是基于大数据平台的?这个应用推荐是基于大数据平台开发的应用,数据采集、数据处理等基础的能力都是由数据平台提供。作为应用推荐的应用,开发团队主要关注在算法层面上。这里的技术流程,主要是聚焦于算法方面。把收集上来的数据经过特征工程抽取行为,然后形成初始推荐级,再根据 CTR 和 CVR 的情况进行排序,最后生成推荐级。


算法涉及的相关技术领域:


最基础的 Hadoop、Spark,前面都已用到。上面是相关的模型或者应用到的子系统。


这是应用推荐用到的一些算法:



CB,基于内容的推荐;CF,用了 item-CF 和 Model-CF;CTR 预估,用了因子分解器、SVM;同时尝试引入机器学习算法,进一步加强应用推荐方面在 CVR、CTR 预估的性能,计划引入 L2R 和 FTRL。


目前推荐引擎的主要性能指标:



和淘宝产品竞赛结果比对,可以让大家有一个基本的概念,目前也在不断探索和改进过程中。一般业界衡量推荐系统,主要是三个指标:准确率、召回率、综合评分。


那么关于准确率达到的 11% 是怎样进行衡量和计算的?把采集上来的用户数据分成两类:第一类叫训练级,是对算法引擎进行训练;另外一类叫做验证级。根据训练出的模型,预测训练级的用户可能会下载的用户,预测的准确率为 11%。召回率指的是,测试级中用户下载的应用处于通过计算、预估的结果中的大概 40%。最后综合评分是在 17.2%,这是努比亚目前能交出来的成绩单。


努比亚在 2012 年时,正式开始做手机品牌,之前一直是跟运营商做定制手机。对于互联网业务,努比亚的起步不是最早的一批,但目前随着良好、优质的用户群体,在互联网的发展还是非常快的,其中大数据平台起了至关重要的作用。


本文转载自公众号七牛云(ID:qiniutek)。


原文链接:


https://mp.weixin.qq.com/s/bB_ddE160apWASHiSLQTtQ


2019 年 10 月 07 日 13:55278

评论

发布
暂无评论
发现更多内容

数字经济需发展隐私计算下的数据共享

CECBC区块链专委会

数字经济

百分点认知智能实验室李生教授:人工智能正在由感知走向认知

百分点认知智能实验室

我是如何从零开始学Python:(2)如何解决安装和检查Python版本遇到的问题?

广之巅

Python 四月日更

架构实战营-模块2作业

李晶晶

架构训练营

架构实战营 模块二作业

ercjul

架构实战营

朋友圈高性能分析

^_^vincent

【架构实战营】第 2模块作业

swordman

架构实战营

Linux tail 命令

一个大红包

4月日更

国内首个全院级医疗区块链基础设施成功部署应用

CECBC区块链专委会

区块链

平行世界有尽头:白洞的数字孪生之旅

白洞计划

微信朋友圈高性能架构复杂度分析

Hesher

微信 架构 高性能 微信朋友圈 架构实战营

架构训练营 模块二作业

薛定谔的指南针

架构实战营

百度、小红书三面,均遇“赛马”问题

执鸢者

面试 前端

带团队:只有人的行为才能影响行为

石云升

团队建设 28天写作 职场经验 管理经验 4月日更

架构训练营模块二作业

Geek_e0c25c

架构训练营

架构训练营模块 2 作业 - 江哲

江哲

平行世界有尽头:白洞的数字孪生之旅

脑极体

架构实战营 模块二作业

netspecial

架构实战营

聪明人的训练(十八)

Changing Lin

4月日更

架构师实战营 模块二作业 微信朋友圈高性能架构分析

好吃不贵

【案例】星环科技助力郑州商品交易所搭建AI预测模型,提升智能决策水平

星环科技

朋友圈复杂度分析

鲲哥

SpringBoot框架原理,你不知道的事件回调机制

攻城狮Chova

springboot 事件监听 4月日更

业务架构训练营第 0 期模块二作业

菠萝吹雪—Code

架构实战营

数字货币——来看党媒怎么说

CECBC区块链专委会

架构实战营 模块二 如何抓住架构设计的关键点

9527

微信朋友圈架构设计

俞嘉彬

#架构实战营

微服务网关:Nacos源码实践(二)

程序员架构进阶

源码分析 nacos 服务治理 28天写作 4月日更

在JavaScript中使用对象来优化if/else和switch

devpoint

JavaScript 对象 Switch

激发Linux+K8S小宇宙!SUSECON硬核上线

RancherLabs

微信朋友圈高性能复杂度分析

鹿洺

架构实战营

佘坤:大数据在努比亚的应用-InfoQ