最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

友盟 + 的数据智能生意经:如何从 DI 向 AI 进阶?

  • 2018-07-12
  • 本文字数:6108 字

    阅读完需:约 20 分钟

AI 前线导读:到今年为止,大数据的概念已经火了不止 7 年,人工智能和区块链成为了新的风口,而大数据产业则慢慢沉淀下来,更多地着眼于“落地应用”。有人说,大数据火了多久,数据相关性弱、数据质量不高、数据处理过程复杂等问题就存在了多久。人工智能时代的到来不仅加剧了这些问题,也引入了一些新的难题,一方面,当前人工智能仍重度依赖数据,如何让大数据更好地服务于人工智能应用;另一方面,如何利用好人工智能这个工具让大数据的处理变得更加高效?我们与友盟 +CDO 李丹枫展开了一场对话,聊一聊 AI 时代下友盟 + 的数据智能生意经。

友盟 +CDO 李丹枫

2016 年 1 月,友盟、CNZZ 和缔元信三家各自拥有本行业强大数据资源的公司合并,组成了新的公司友盟 +,新生的友盟 + 数据体量突然倍增。截止 2018 年第一季度,友盟 + 服务150 万款 APP,710 万个网站,每天可以触达的设备达到 14 亿,每天收集的事件数以千亿为单位,累积数据量以 PB 记。友盟 + 现在的存量一共有 55PB 的数据,如果拿一张 A4 纸,正反两面写满数字,把 A4 纸叠起来可以装 15 万辆卡车。友盟 + 的数据仓库里面有多少张数据表呢?大概是 19000 张。对于数据的挖掘、分析和运算,每天的运算量需要 2 万个计算单元,相当于 200 个地球上的 100 亿人 24 小时的不间断的运算。

骤然增多的数据量,一方面让友盟 + 在众多数据服务提供商中获得了天然的数据体量优势,另一方面,也给数据治理与整合、数据产品和数据团队的调整带来了前所未有的挑战。

日均千亿数据,如何实现高效计算?

Q:三家公司合并给数据治理与整合、数据产品和数据团队的调整分别带来了哪些挑战?你们是如何应对这些挑战的?

在产品层面:我们开始面对的是如何整合三家公司的不同产品,这个挑战是可想而知的。我们的方法是根据客户群体对产品进行整合。 我们都知道友盟是移动互联网企业及创业者提供移动数据服务与运营工具,是国内的综合性移动开发者数据服务平台;CNZZ 是中文网站统计分析平台,客户群体覆盖中文网站及中小企业;缔元信网络数据则为互联网头部企业提供一站式数据化解决方案,三家基于各自的数据输出了很多数据产品,我们根据客户群体进行了产品的整合。面向开发者的产品,如 App 和 Web 的统计,Push 和 Share,整合到 Dplus,为开发者提供一站式统计和运营工具。服务于新零售的产品整合到 Oplus,针对广告主的产品整合到 ADplus,形成了我们的 Plus 系列数据产品。

数据整合方面:原来的三家公司在数据服务领域是完全互补的,在数据上我们很少有共同的客户服务群体,这就给我们数据整合减少了非常多的麻烦,不必为了某些标准去把某一家的数据整合进另一家的标准。在数据整合方面,友盟 + 运用域数据打通能力,将移动、PC、线下等跨终端、多场景数据打通,让数据实现了全域整合,从而让友盟 + 真正成为了一家全域数据公司。

数据处理方面:合并后的 友盟 + 每天大概有几十亿个 ID 的数据回溯到数据训练的平台上,为我们带来的是巨大的计算量和计算资源的占用,对于数据工程师来说最重要的是需要协助数据科学家搭建有效的数据生产环境,保证计算的稳定性。因此,数据全量更新或按需更新的选择直接决定了存储和计算资源的消耗量,也就是成本。 我们提出了“代码健康度”的概念,让数据团队一定要用最高效的方法来实现计算。尤其在数据体量巨大的场景下,比如说 100 亿个 ID,如果每个计算能提高 1%,能节省的资源是很大的。另外,在数据价值的挖掘工程中,我们也逐渐形成了一套高效的底层架构,例如数据清洗,打通后形成统一的宽表,建立 Universal User(device) Profile。绝大多数的数据挖掘和建模都基于这个 Profile。实现了和产品层面的隔离之后,产品的更新就不会影响后面的建模。我们还提供了完善的回溯功能,可以让用户的 Profile 回到历史上的任意一天(当然,有一个最早的可回溯点),这对严格意义上的建模是非常有意义的,有些场景是必备的功能,如在我们的金融风控场景中,是否可以回溯决定了模型效果的可信度。

Q:在高数据体量下,如何定义和实现高效计算?数据质量如何把关?

对于大数据的高效计算包括存储的高效,查找的高效和代码的高效。刚刚提到我们的表有 19000 张,55PB,显然,任何存储的优化都会带来巨大的经济效益。例如我们所做的标签 ID 化,就可以在很多表上节约 70% 的空间。高效的查找是指对每一个生产表打标签,建立数据地图,这样我们就可以快速定位到我们想要的表。代码的高效,主要是通过建立开发规范。这么大的数据量为避免数据重复开发和浪费,我们会对代码和命名进行有效规范。还可以通过方法论,比如说如何数据分层、统一语言,索引条件优先等级划分,都需要记录在开发规范中。每一段代码都会有健康度的评分,如果你的健康度低,你运行程序的优先级就会降低。

Q:为了做到前面所说的高效计算,友盟 + 的数据体系架构设计经历了哪几个阶段的演进?能否介绍几个关键的演进节点?

第一个重要的节点就是三家的数据采集、传送和处理的整合,对我们的平台、工具、协议和底层的数据进行统一。这是我们数据打通,从而进行进一步数据价值挖掘的基础。第二个节点是实时和离线计算的技术升级,在数据量激增的情况下保证服务的稳定性。第三个节点是在数据的内容上进行整合,我们将不同端打通,内容连接,建立全域画像。第四个节点是我们在业务驱动下对数据质量进行评估,发现和解决在数据采集和处理流程中可能存在的问题,好的数据质量是我们好的服务的前提。

业务数据化,数据业务化

Q:请介绍一下友盟 + 当前的业务体系?主要包含了哪几类产品?与竞争对手相比,友盟 + 的优势是什么?

友盟 + 的业务体系我们用“三纵两横”来阐述,三纵中第一部分是互联网运营数据服务:Dplus,通过一站式 App/Web 数据采集,帮助开发者实现数字化运营和精细化分析;第二部分是新零售数据服务:Oplus,基于智能感知设备让线下零售商实现线下数据可追踪,同时将线上数据赋能线下,以消费者需求为导向,提升效率、降低成本、提升用户体验。第三部分是全媒体、全链路营销服务系统 ADplus,帮助广告主及代理商从触达、认知及搜索到品牌在全网的影响、关注度进行宏观监测。

两横则是:金融和手机两个行业大数据解决方案。金融行业是去年才正式开始做的,在一年的时间里取得了不错的成绩,我们从基于移动互联网数据的风控产品开始,逐渐扩展到获客营销、二次营销、贷中管理,今年还计划开发贷后管理的产品。同时在今年,我们还推出了手机行业的大数据解决方案,以 7 亿真实活跃用户的全域数据为能源,通过 15 万颗运算核心与数据引擎助力手机厂商实现从市场感知、业务与产品规划,到产品上市、上市后运营等业务流各环节的数字化转型。

对于友盟 + 而言,最大的优势是全域数据,以及数据智能的认知与能力。在全域数据方面,友盟 + 将 7 亿真实活跃消费者的 App、PC、线下等跨终端、全场景的实时数据,通过全域数据打通技术进行联结与融合,帮助企业 360 度洞察“人”,为企业与消费者通过数据更好地理解与连接:在数据智能方面,友盟 + 提出全域数据 * 算法 * 场景的理念,即通过全域数据作为企业的新能源,以数据技术与算法模型作为企业的引擎,将企业与用户接触的场景作为赛道,帮助企业从数字化全面走向智能化, 最终用数据智能帮助企业实现增长、增值和升级。

Q:你们给自己的定位是“第三方全域数据服务商”,在打通全域方面,友盟 + 遇到过哪些技术难题?是如何解决的?

刚才我提到我们的一个优势就是“全域”。“全域”的最大挑战之一就是数据的打通。我们开发了自有的数据打通算法,同时借鉴阿里的数据经验,基于全域数据能力,由于有了大量的高质量数据,模型可以达到约 80% 的 precision 和 80% 的 recall。

Q:您曾经说过“未来传统企业是重要服务客户群”,能否谈谈传统企业要应用好数据涉及哪些关键因素?

关于传统企业应用好数据大家有许多共识,比如说打破数据孤岛,管理层的支持,提倡数据驱动文化等,我在这就不一一赘述了。我想强调一点,就是打造“数据闭环”。也就是说在业务场景的每一个环节都可以收集到数据,从而可以真正实现数据驱动。举一个简单的例子,电商之所以做得这么好,是因为做电商的每一个环节都有数据支持,从而可以进行优化。再试想线下的场景,哪个货架停留的客流多,哪个商品被拿起的次数多,这些数据对于商家来说,是一无所知的。没有数据,就无法谈优化。所以,对于传统企业来讲,一定要深入思考,怎样才可以形成“数据闭环”。 “业务数据化,数据业务化”,就是说的这个道理。这个不容易,但一旦你做到了,你就会在竞争中处于优势。

Q:从友盟 + 的角度来讲,一款数据产品要取得成功,最关键的因素又是什么?

一个数据产品成功的关键因素其实很简单,是不是可以解决问题。这里有几个层面:

  • 第一,有没有提高效率,或降低成本,或增加利润,现在有许多数据产品是为了使用数据而不是去真正地解决问题。
  • 第二,你所使用的数据是不是能够解决本质的问题,许多第三方数据公司把自己的数据包装得无所不能,这是非常不切合实际的,第三方的数据往往起到的是辅助作用,在使用这类数据产品的时候,一定要问清数据的来源、数据的特征属性,一定要能够找到数据本身和要解决问题的相关性。就像你无法用棉花造出飞机一样,每一种数据都有适用和不适用的场景。所谓“知之为知之,不知为不知,是为知也”,对应到数据的应用“用之为用之,不用为不用,是为用也”。

数据科学家要能从自己的金字塔中走出去

Q:可否介绍下目前友盟 + 的数据团队规模和团队成员的构成?主要有哪些角色?不同角色的岗位所分担的工作或职责有哪些不同?

友盟 + 数据团队有 40 多人,包括数据科学家、数据分析师和数据研发。数据科学家主要的任务是建模和对数据价值的挖掘。数据分析师承担很多 BI 的工作,同时也对数据质量进行监督,根据业务的需求,对数据进行深层的分析。数据研发负责数据的整合、加工和提取,生成底层表格、支持业务逻辑和分析建模的需求。

Q:在您看来,对于数据科学家和数据工程师来说,有哪些职业技能是不可或缺的?其中最重要的能力是什么?

首先是基本的数据提取、处理和分析的技能。从工具的角度来说,例如 SQL、Python 等;从基本的数学和统计方面包括,均值、方差、中值、correlation 等;从建模的角度来说如 LR、GBDT、CNN 等,还有对不同的模型怎样评估,包括 precision and recall、false positive、ROC、KS 等指标。

在具备了这些基本的必备知识之后,我认为作为一个在工业界的数据科学家最重要的能力是去发现问题,建立数据和算法的直接联系,到进一步地去解决问题。大家都认同数据是巨大的财富,可以给我们解决很多的问题,但是我们仔细看一下,真正的大数据和算法能够落地的场景还是非常有限的,特别是对于传统企业来说。最近 IBM Waston 在美国医院的受阻就是一个例子,虽然帮助医院解决了一些问题,但代价是高额的成本。我在前面提到一个数据产品成功的关键是“提高效率,或降低成本,或增加利润”。数据科学家也要有这种思路,要能够从自己的金字塔中走出去,去了解和理解业务,这是我认为在工业界的数据科学家的一个非常重要的能力。

数据与智能

Q:AI 火了之后,有人调侃原来做大数据的现在都说做 AI 了。我们都知道最近这一波 AI 浪潮的兴起离不开大数据,您认为近几年 AI 的发展反过来给大数据领域带来了什么样的影响?随着 AI 的普及,大数据领域发生了哪些变化(包括技术方向、应用方向等)?

这个影响是巨大的,在 AI 浪潮兴起之前,大部分人理解的大数据应用(实际上也确实是这样的)都是 BI(business intelligence)。BI,简单讲就是向过去看,统计过去所做的事情和造成的影响,统计报表出来之后,我们再根据历史进行对未来的决策。注意,这里的关键点是“我们”,这里人是决策者。而 AI 是向未来看,机器取代了人做决策,机器人客服、人脸识别、到自动驾驶等等,都是这个场景。

今天的 AI 的三大要素是“数据”、“算法”和“算力”,而在这三大要素中,很多人(包括我)都认为“数据”是最重要的因素。这是因为现在的 AI 模型的结构都包含大量的参数,而要让算法学出这些参数,就需要大量的数据。现在AI 的普及,使得大家进一步认识到数据的重要性,这是最显著的变化。对于技术来说,怎样采集(如 IoT),存储和处理(如 Hadoop、Spark、Flink),建模(如深度学习),甚至于 AI 芯片等大数据相关的技术都有了很大的发展。在应用方面,许多行业也开始进入(医疗,教育)或者更深度地介入(金融)大数据和 AI。

Q:友盟 + 在公司内部以及对外提供给客户的产品中分别是如何应用人工智能技术的?能否举几个例子?

友盟 + 的数据是关于互联网和移动互联网的运营数据,所以我们主要的工作是围绕怎么去建立设备行为的模型,如果有业务场景需要设备行为的信息,我们的模型就有可能得到应用。友盟 + 的反作弊应用就是非常好的例子,由于有了设备行为偏好,我们就可以去衡量一个设备的质量,通过归因算法、智能反作弊等技术,帮助客户获取真实流量。

Q:您在美国数据分析和挖掘领域工作 10 多年,曾任职于包括雅虎,微软等公司。您认为中美在大数据技术和应用两个层面存在哪些不同之处?

在技术层面个人感觉美国还是有一些优势的,他们有很多的公司会去做非常长期的底层的工作,学校和公司里的研究院的资源比较丰富,也有不少可以安心做研究的人。

在应用层面,中国有非常大的优势,我们有非常大的用户群体,大量的用户带来了大量的应用场景。

Q:您认为大数据领域当前最有待突破的地方在哪里?下一阶段大数据的主要发展方向是什么?

我认为大数据领域最有待突破的是:模型的可解释性。现在的人工智能都是所谓的“弱”人工智能,是利用大量的数据,训练一个参数众多的黑箱模型。这个模型是在建立输入和输出的“相关性”,而不是“因果性”。比如,你打着雨伞和你的鞋湿了,这两个事件是“相关”的,也就是说经常会在一起发生。但是打伞并不是鞋湿的原因,下雨才是鞋湿的原因,所以下雨和鞋湿才是“因果”关系。为什么因果关系这么重要呢?是因为这是我们理解世界,从而进一步改变世界的方式。我们知道了植物是怎样生长的,才有了万亩良田;知道了电和磁的相互转化,才有了万家灯火;知道了鸟儿是怎样飞行的,才有了飞机翱翔在天空。同样,真正的智能,是能够帮助我们找到因果关系的模型,在很多的应用场景,可解释性也是非常重要的,例如,金融场景中,我们要知道为什么可以给这个人贷款;在医疗场景中,我们要知道为什么会做这样的诊断等等。

当然,模型的可解释性可能需要相当长的时间。当下,我认为大数据主要的发展方向是在更多的领域找到真正落地的场景。现在在互联网,金融应用得不错,在医疗、教育也有好的开端。我们希望可以在更多的领域可以找到大数据的解决方案,标准是“提高效率,或降低成本,或增加利润”。

采访嘉宾介绍

友盟 +CDO 李丹枫

带领友盟 + 数据科学团队基于设备行为数据建立风控数据模型,成功打造了互联网金融风控解决方案。同时致力于在数据中摸索新的算法或者模型,对不同领域进行数据创新。

在美国数据分析和挖掘领域工作 10 多年,曾任职于包括雅虎,微软,FICO 等在数据应用走在前沿的公司,积累了丰富的数据挖掘和机器学习的实战经验。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-07-12 17:141407

评论

发布
暂无评论
发现更多内容

HDFS源码解析:教你用HDFS客户端写数据

华为云开发者联盟

hdfs block appendChunk

How old are you | 尚硅谷大数据之Canal视频教程

编程江湖

大数据 canal

使用亚马逊云科技DevOps 工具构建 InnerSource 生态系统

亚马逊云科技 (Amazon Web Services)

开源 InnerSource

【2021废钢铁大会】拾起卖旗下天津城矿再生资源回收有限公司三获“全国优质废钢加工配送企业”称号

InfoQ 天津

大型集团企业云管平台建设参考架构

华为云开发者联盟

架构 运维 IT治理 分布式部署 ManageOne

在线JSON转PHP Array工具

入门小站

工具

通过一个实际例子理解Kubernetes里pod的自动scale - 水平自动伸缩

Jerry Wang

Kubernetes k8s 28天写作 docker build 12月日更

尚硅谷大数据之Canal视频教程发布!

@零度

大数据

千万级日志回放引擎设计稿

FunTester

性能测试 测试框架 FunTester 流量回放 GOREPLAY

兄弟要盘吗?

为自己带盐

爬虫 dotnet 28天写作 12月日更

2021 优秀开源项目公布,Apache APISIX 位列其中!

API7.ai 技术团队

api 网关 Apache APISIX 优秀开源项目

梦想起航

向往

盘点2021

☕【权限设计系列】「认证授权专题」微服务架构的登陆认证问题

洛神灬殇

微服务架构 12月日更 权限认证机制 授权设计

60 K8S之EFK日志管理系统

穿过生命散发芬芳

k8s 28天写作 12月日更

架构训练营模块三作业

zhongwy

架构实战营 「架构实战营」

揭秘字节跳动基于Hudi的实时数据湖平台

字节跳动数据平台

大数据 实时数据湖

平凯星辰获评 《金融电子化》2021 金融业新技术应用创新突出贡献奖

PingCAP

填问卷抽大奖,中奖绝缘体的跨年福利快来领取!

InfoQ写作社区官方

热门活动

技术“开源”对于金融业软件发展的影响

Speedoooo

安全 ios开发 APP开发 Andriod开发 小程序容器

助车企升级,旺链科技与南方电网、联想等名企同斩获「创新案例奖」

旺链科技

区块链 产业区块链 供应链金融

Linux之atime,ctime,mtime的区别

入门小站

Linux

基于磁盘量身定制,十亿规模高效向量检索方案

Zilliz

向量检索 anns 向量计算

面试官:方法重写时需要注意哪些问题?

王磊

固定资产管理平台系统解决方案

低代码小观

企业管理 资产管理 CRM 企业管理系统 CRM系统

QCon-oCPX多目标多场景联合建模在OPPO的实践

安第斯智能云

算法

带你认识三种kafka消息发送模式

华为云开发者联盟

kafka 时间 异步 消息发送 producer

【转】大数据开发之Spark面试八股文

@零度

大数据 spark

Spring框架基础知识(03)

海拥(haiyong.site)

28天写作 12月日更

域名基本信息查询小技巧

喀拉峻

网络安全 安全 信息安全

网络安全好学吗?手把手教你学主动信息收集,网络安全基础教程

学神来啦

网络安全 信息安全 渗透测试· kali kali Linux

前端React 开发中必须知道的5个技巧

@零度

前端开发 React

友盟+的数据智能生意经:如何从DI向AI进阶?_大数据_李丹枫_InfoQ精选文章