玩转大数据,QCon 上海 2016 热点前瞻

  • 臧秀涛

2016 年 8 月 11 日

话题:大数据语言 & 开发架构AI

预计到 2020 年,全球数据总量将超过 40ZB,如果不能有效地存储、管理和使用数据,将给企业带来的是巨大的成本,同时数据的玩法和应用越来越多、业务的场景越来越复杂,给数据的存储和计算等不断带来新的挑战。

伴随着各种大数据基础框架的百家争鸣和一步步优化,整体解决方案的数据平台得以迅猛的发展,使得不仅专业人员可以开发数据产品,业务和产品等非技术人员也慢慢能方便的构建数据产品。同时大数据除了在广告、推荐、风控等领域继续深耕细作外,在智能客服、供应链、物流、图像、甚至足球运动等领域也扮演越来越重要的角色。

在将于 10 月 20~22 日举行的QCon 上海 2016上,我们就准备了很多大数据方面的精彩内容,邀请了 Google、Netflix、LinkedIn、Spotify、阿里巴巴、百度、腾讯、360、携程等公司的技术专家,来分享他们的实践经验。

我们一起来看看。

Google 的盈利主要来自于其广告系统。黄科,Google 在线显示广告部门工程师。在 Google 工作 9 年,其中一半时间在山景城总部 AdSense 团队,另外一半时间在纽约分部 DoubleClick 团队。一直从事后台技术开发工作。对在线广告的全系统,包括广告的买方、卖方及中间的交易平台有深入的了解。

他将分享《在线显示广告中的优化问题》。

在线广告是一个很大的市场,随着广告从传统媒体向互联网媒体迁移,这个市场还在快速增长。有钱的地方就有江湖,不同的角色在这个市场中采取各种手段和技术来优化自身的利益。

从广告卖方的角度来看,优化问题包括:如何在线分配广告位给不同类型的买家(如预购买买家、即时买家);如何平稳投放给预购买买家的流量;如何最大化出售给即时买家的广告位的收益。

从广告买方的角度,优化问题包括:各种率,如点击率、转化率的预测;作弊流量的检测;对有限预算的买家如何平稳分配预算;用户体验的预测;重复流量的检测;广告形式的轮转;系统反应时间的优化。

演讲中将具体分析。

Netflix 是一家数据驱动型公司,许多产品决定是基于数据分析得到的洞察。几百个微服务系统每天产生万亿条消息和 PB 级数据,数据流水线负责从生产者到消费平台(如 Hadoop/ElasticSearch/Kafka)传输如此大规模的数据。这次我们邀请到 Netflix 的架构师Steven Wu(吴震),他在 Netflix 的 Real-time Data Infrastructure 组工作。近期完成了数据流水线从 Chukwa 到 Keystone 的演化。

他将分享《打造万亿级别的数据流水线》。

演讲将介绍 Netflix 数据流水线过去几年的演化之路,深入探讨新的 Keystone 数据流水线的架构和一些设计抉择,分享 Keystone 在实战中遇到的问题和得到的教训,并浅谈对 Keystone 未来的一些想法。

Apache Kafka 是 LinkedIn 贡献出来的系统,几乎成了数据基础设施的标配。这次我们邀请到了 LinkedIn 的 Kafka 生态平台设计和开发的主要参与者秦江杰。他主导了包括 Kafka Cruise Control,likafka-clients 等多个 Kafka 相关项目的架构设计和整合,同时也是 Kafka 开源社区的主要贡献者之一。

他将分享《使用 Apache Kafka 进行关键业务消息传输》。

Kafka 作为高可用的分布式消息系统对消息内容和格式是完全开放的。这使得 Kafka 可以被用作各种应用之间和内部的消息传输。LinkedIn 最近利用了 Kafka 进行内部 NoSql 数据库 Espresso 的内部冗余数据备份。在这个过程中,我们解决了许多具有挑战性的问题。这些问题涉及到消息传输的可靠性和完整性,性能和延迟优化,数据安全性以及超大消息的处理等。这些问题的解决对于利用 Kafka 来进行关键业务的数据传输是至关重要的。演讲中会对我们的解决方案进行总结和分享。

Spotify 是全球最大的正版流媒体音乐服务平台。Kinshuk Mishra,Spotify 广告工程技术总监。他的团队负责 Spotify 的广告基础设施、多平台广告产品和广告优化。作为早期加入 Spotify 的工程师之一,他在推动 Spotify 工程技术演进方面做了很多工作。

他将分享《Spotify 广告系统架构演进》。

在产品高速成长的公司中,随着技术的改进,系统的持续演进是不可避免的。产品和业务需求也不断演进,规模的变化又会影响运营成本。近年来,Spotify 的广告系统经历了几次大的变化。对 Spotify 的广告技术栈而言,性能是刚需——要做到大规模、高可用、低延迟。任何宕机或业务中断都会直接影响收入。随着新兴消费平台的兴起,后端和数据基础设施技术也已经成熟,Spotify 的产品也有很多改进。广告技术系统的需求也在变化。Kinshuk 将在演讲中分享保证日常服务不中断的前提下改进 Spotify 广告系统的经验。

随着数据规模不断扩大,很多公司也会投入很多人力进行相关研发。如何构建更高效的研发体系呢?张磊(花名宗超),阿里数据技术及产品部高级技术专家。拥有多年数据研发经验,参与过阿里集团的登月计划、公共层建立等多个重大项目。

他将分享《阿里巴巴的数据研发体系是如何建立和管理的》。

数据研发经常会遇到这些问题:

  1. 研发人数较多(超千人),频繁上下线,如何解决开发效率的问题?
  2. 业务高速发展,数据量爆炸式的增长,如何有效控制存储与计算的线性增长?
  3. 从数据采集到数据消费的整个链路非常复杂,如何保障整个数据链路的质量与产出时间?
  4. 大数据建设的标准规范,如何制定并有效的执行?
  5. 数据浩瀚如烟、纷繁复杂,如何能够迅速的找到自己想要的数据?

经过几年的摸索,我们通过 OneData 研发体系能够比较有效的解决上述问题。OneData 定位是:一个指标一个算法,一个维度属性只有一个名字,模型规范化,从算法定义、数据研发到数据服务,可管理追溯从而规避重复建设。

外卖是中国目前最火的互联网 O2O 业务之一。蒋凡,百度外卖高级研究员,技术委员会主席,2006 年毕业于中国科学技术大学,进入百度后设计开发百度日文搜索引擎,是百度日文的早期核心员工。2012 年加入百度知心团队,设计开发新一代的推荐搜索引擎,改变了百度搜索右侧的展现形态。2014 年加入百度外卖团队,负责物流调度、个性化推荐、智能营销和画像建模等多个技术方向。译有《推荐系统》(人民邮电出版社)和《推荐系统:技术、评估及高效算法 》(机械工业出版社)。

他将分享《外卖物流配送的大数据创新实践》。

餐饮 O2O 行业连接线上线下的订餐需求,将传统的到店消费模式改造成更加灵活便捷的到家消费模式,极大降低了用户的消费成本和商户的固定成本。外卖平台在这里扮演角色除了促进线上需求向线下转化,也包括达成订单的最后一公里任务——物流配送。高效的物流配送能力是决定外卖平台商业模式成败的关键,也是 O2O 经济区别于传统经济的根本,即运用大数据相关的云计算、深度学习和可视化技术提升行业效率,创造并满足新的民生需求。本次分享深入介绍了百度外卖物流调度系统应用大数据技术,摸索业务规律的过程和创新实践经验。

再来看看合约广告方面的话题。陈戈,腾讯广告平台产品部广告引擎与数据算法中心副总监。负责广告后台服务,算法和数据的研发工作。硕士毕业于上海交通大学,先后在百度和腾讯工作,在计算广告领域有多年的经验。

他将分享《腾讯合约广告引擎与算法实践》。

合约广告是品牌类展示广告的主要模式,在腾讯视频、腾讯新闻 APP 和腾讯网等腾讯媒体中的合约广告收入已达百亿规模。广告引擎与数据算法对合约广告的变现效率具有重大影响,面临着很多有特色的挑战,如库存预估、广告在线投放算法、广告售卖库存分配等。

本次分享讲介绍腾讯合约广告引擎与算法的创新与实践,包括系统架构,核心算法 ,合约广告的程序化购买等。

除了使用开源的大数据框架,很多公司也会针对自己的业务特点研发一些自由的平台。魏自立,360 高级工程师 & 资深顾问。参与建设了全世界首个也是目前全世界最大的云查杀安全系统,也是 36 搜索引擎的核心开发。在分布式网络服务器架构与计算、大规模系统性能调优等方面积累了大量实践经验,目前负责 360 核心安全业务线的云引擎服务团队。

他将分享《如何打造一个百万亿级的日志搜索引擎:Poseidon》。

Poseidon 系统是一个日志搜索平台,可以在百万亿条、100PB 大小的日志数据中快速分析和检索。360 公司是一家安全公司,在追踪 APT(高级持续威胁)事件,经常需要在海量的历史日志数据中检索某些信息,例如某个恶意样本在某个时间段内的活动情况。在 Poseidon 系统出现之前,都是写 Map/Reduce 计算任务在 Hadoop 集群中做计算,一次任务所需的计算时间从数小时到数天不等,大大制约了 APT 事件的追踪效率。Poseidon 系统就是解决这个需求,能在数百万亿条规模的数据集中找出我们需要的数据,只需要花费几秒钟时间,大大提高工作效率;同时,数据不需要额外存储,节省了大量存储和计算资源。该系统可以应用于任何海量 (从万亿到千万亿规模) 的查询检索需求。

OTA 公司的业务也有自己的特色。于磊,携程基础大数据产品团队总监。他将分享《携程的推荐及智能化算法及架构体系实践》。

区别于一般电商公司,OTA(Online Travel Agent) 公司的业务线繁多,各业务线的线上流程、商品数据、用户行为、用户需求和订单逻辑差异性极大,不同业务线,近似于完全不同的行业。但是同一般大型电商公司一样,OTA 的大数据营销平台也同时面对着公司跨繁多业务线的个性化推荐、进阶销售(up-selling)和交叉销售(cross-selling)的业务诉求。本次分享将介绍携程通用实时个性化推荐架构和算法体系设计方面的最新进展。

1 号店供应链优化部负责人杨光耀、搜狗资深研究员周泽南、英特尔资深架构师叶军、LinkedIn 业务分析经理赵晟和 Autodesk 高级工程师俞戴龙(Wally Yu)等专家也将带来大数据相关的分享,敬请期待。

8 月 21 日前报名,可享 8 折优惠。

获取 QCon 最新消息,第一时间观看演讲视频,欢迎关注 QCon 微信公众号。

大数据语言 & 开发架构AI