【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

揭秘 Google、Netflix 等千亿市值企业的架构设计

  • 2018-05-01
  • 本文字数:5280 字

    阅读完需:约 17 分钟

但凡谈到硅谷,国内总有程序员视自己低人一等。确实,仅在下图若干个核心领域对比中,中国仅在家用电器、建材、铁路和高铁技术等几项技术领先美国,核心的半导体、系统软件等技术领域与美国整体差距悬殊。

但中国从 1986 年的第一封邮件发展至今,一直在追赶着汇聚了全球顶尖智力的硅谷。我们不仅每天可以看到大陆团队在硅谷朝圣或学习,也能看到越来越多的团队前往设立分支机构,也最终看到越来越多的美国团队开始学习中国模式。

你看,微博市值已经压制Twitter,而 Facebook 腾讯的市值在互相超越。在世界千亿互联网巨头里,已经不乏中国企业的影子。

今天,我们就聊聊中美顶尖企业在各自细分领域上的核心架构实践对比,以即将举行的全球架构师峰会上的演讲为例,各案例均是各企业技术团队的代表之作,相信届时与国内外上百技术专家、千名技术同行交流的你,肯定会有独到的体会和思考。

一、机器学习专家

刘磊,机器学习专家,在 ArchSummit 深圳站上将有两场分享

长期带领团队从事 AI、机器学习的研发和软件架构。在研和已完成项目包括:数据管理中机器学习核心技术、大规模数据分类、推荐系统、社会网络挖掘、网络僵尸病毒检测、可穿戴数据挖掘、基于传感器数据的个性化健康、基于大数据的教育系统。

研究成果获得或已提交美国专利 40 多项,发表论文 30 余篇。

分享内容:机器学习在多源传感器数据上的应用

随着手机、智能手表和生物传感器等便携式设备的普及,数字化自跟踪技术近几年已获得长足发展。同样,用于监测、存储和分析人类自跟踪数据的信息管理系统设计也在不断的优化。

和以往任何时候相比,由于技术的快速发展,使得收集生物数据和生理数据这个过程变得越来越容易,例如心电图 (ECG)、血氧饱和度 (SpQ2)、心率 (HR)、脑电波信号 (EEG)、皮肤电反应 (GSR)、血压、含氧量、体温等等。这些自跟踪数据可以帮助我们通过监测和分析,来更好理解个体的健康状况。正因为此,挖掘传感数据中的隐含价值受到越来越多工业和学术界的关注。

本次分享聚焦在介绍机器学习平台在传感数据中的应用,对利用多源传感器数据结合机器学习技术来检测人体行为项目做详细介绍。

分享提纲

  1. 机器学习在多源传感数据上应用的背景介绍
  2. 机器学习平台和架构

a 系统架构 & 预处理和特征工程

b 建模和离线性能评估 & 在线部署、评估和模型更新
3. 挑战和项目收获

a 稀疏数据与数据缺失问题

b 数据分布不均衡问题

c 时序行为模式分析
4. 总结和应用挑战

a 警察局自动监测系统里的连续行为识别

b 老年人紧急状况监测,预警系统

二、Google 深度神经网络推荐系统负责人

Dekun Zou,Google 研究院资深研发工程师,负责深度学习的研发并产品化,在 ArchSummit 深圳站上将有两场分享

负责研发多个基于深度神经网络的推荐系统,包括 Android 应用商店、Google 广告排名。加入 Google 研究院之前曾就职于 Apple,再之前供职于亚马逊云计算(AWS)。

具有 10 多年研究经验,涉猎机器学习、计算机视觉、视频以及图像处理诸多领域。在国际杂志和会议上发表了 20 多篇论文,也是 20 多项美国专利的主要发明人。

分享内容:深度学习在大规模推荐系统中的应用

随着电子商务和在线服务越来越普及,海量在线资源很多时候多到让用户无从选择,因此推荐系统的质量变得至关重要。

传统的线性回归方法在很多系统里应用广泛,只不过,随着深度神经网络在图像视觉领域的突破,很多研究人员开始利用神经网络搭建深度推荐系统,推荐质量显著超越传统基于线性回归系统,同时也简化了以往搭建推荐系统所需专家知识 (domain knowledge)。

深度推荐系统被广泛应用于 Google 多项面向用户的产品,一次又一次的突破质量瓶颈。此次演讲会由浅入深探讨如何构建基于深度学习的推荐系统,并讨论最新的技术发展。

分享提纲

  1. 传统线性回归方法 & 深度学习优势
  2. 信号类别

a 场景信号:当前场景相关的信息

b 用户信号:用户特征,用户历史信息,

c 物件信号:排序模型物件的特征
3. 两步定制化推荐

a 深度挖掘,生成候选人列表

b 混合人工生成的候选人,最终排序
4. 模型训练模式

a 离线,根据系统日志 (适用于大系统,海量用户)

b 在线,强化学习(小量用户,快速迭代)
5. user vector, item vector (swivel model)

a 预生成的用户向量降低推断延时

b 超大规模物件向量的学习(稀疏问题)
6. 损失函数的构造

三、Facebook Software Engineer Manager

徐斌,在 Facebook 带领 Business Integrity 的机器学习团队和机器平台架构团队,在 ArchSummit 深圳站上将有一场分享一场深度培训,内容详见大会日程。

主要任务是确保 Facebook 的用户和 Facebook 上所有商业业务之间的诚信沟通。这些商业业务存在于广告、市场、社团 / 群组、粉丝专页等等。

在进入 Facebook 前,在 Microsoft 担任首席机器学习工程经理,带领技术团队开发云安全解决方案,实现对异常现象的检测,并保护客户在云中的身份、数据和应用的安全。再此前在 Amazon 工作 10 年,率领多个应用科学家团队处理交易风险管理工作。

分享内容:机器学习技术在安全性和完整性方面的探索

随着电子商务崛起、云计算爆发,社交网络大面积普及化,商业业务创新和开展越来越容易,我们能轻而易举使用大规模资源和服务,全球化信息互动和共享已经可以同步。

但信息安全和商业诚信问题却不断增加,面对每天超过 PB 级的不平衡和模糊大数据,实时机器学习和解决方案面临着巨大的挑战。这样的要求在各个领域越来越多,促发了许多突破性的研究成果和应用。

本次分享会快速浏览一些安全问题,然后讲述一下机器学习平台,重点讲解能够处理当下棘手问题的相关先进技术和解决方案以及真实的应用效果。最后会分享几个最近机器学习在安全应用上的特别案例。

分享提纲

  1. 交易欺诈滥用、云计算安全以及其他商业诚信问题
  2. 机器学习平台和架构

a 离线构建,在线部署,反馈机制

b 数据和特征工程

c 平行 v.s 垂直模型结构

d 传统分类 v.s 深度学习
3. 挑战和切身教训

a 非平衡数据

b 处理模糊性:半标签和无标签

c 冷启动问题
4. 应用 1: 机器学习在交易风险管理方面的实践
5. 应用 2: 机器学习在云安全方面的实践

四、Netflix 首席软件工程师

Yunong 目前是 Netflix 的首席软件工程师,带领 Netflix API 平台设计和架构团队。在此前任职于 AWS 和 Joyent,主要方向是分布式系统,并帮助规划和构建了多款云计算产品,例如 AWS IAM 和 Manta。与此同时,他也在维护开源项目 Node.JS 框架的校正。

演讲内容: Going FaaSter: Function as a Service at Netflix

FaaS 变革像风暴一般拓展到全球。事实上,因为企业都喜欢 FaaS 所带来的 No-Ops,或者说在工程效率上的突出表现,FaaS 带来的变革可以在一线开发者领域迅速扩展,能够帮助工程师们更快速地将代码部署到产品上。

在 Netflix,这些功能特性对于 Netflix API 平台来说简直是完美符合,工程师们用 JavaScript 来写代码并部署到 tier-1 服务层,整个过程不是完全必须要去管理基础架构设施或者运维。

然而,还是有很多权衡之处需要考虑,传统的 FaaS 理念或者做法在今天看来,更适合那些对延迟要求不高的任务。但是,对于延迟很敏感,对可靠性以及可弹性扩展要求较高的任务来说,FaaS 还需要再优化。

通过本次分享,你将了解到 Netflix FaaS 平台的架构和内部构成。

五、微信 Yard 平台及流量实验 X 平台负责人

文杰,微信技术架构部专家工程师。2005 年入职腾讯,曾参与主导搜索引擎,分布式存储,分布式计算等多个项目的整体架构。2013 年加入微信,现任技术架构部下大数据平台团队负责人,主导微信两项基础平台:微信资源调度 Yard 平台和微信流量实验 X 平台的研发。

分享内容:微信背后万级机器的管理者 Yard 平台

微信每天承载数百亿条的消息收发,支撑着微信功能的后台服务也多达数万个,如何确保这些在线服务的稳定可用和可控,是资源管理系统面临的一大挑战。

与此同时,AI 技术方兴未艾,围绕着微信所开展的机器学习与数据挖掘的离线作业也日渐增多,对内部计算、存储、网络等资源提出了大量的需求,如何充分利用好服务器资源,高效调度各类计算作业,合理编排不同维度的资源组合也是资源调度系统的一个重要目标。

本主题阐述了微信的资源调度系统 Yard 如何利用容器技术解决在线服务与离线作业混合运行的各种问题挑战,分享微信后台在资源隔离、作业调度、容灾设计等方面的成功实践和思考。

分享提纲

  1. 微信后台资源管理发展历程
  2. 在线服务和离线作业的资源抢夺战
  3. 微信资源调度系统 Yard

a 系统架构

b 资源隔离的“舍”与“得”

c 调度的 AI

d 网红 Docker 在 Yard 中的应用

e 踩过的“坑”与“坑”外的思考
4. 成果展示 & 未来展望

六、微众银行区块链首席架构师

张开翔,FISCO BCOS 平台架构师。曾在腾讯工作多年,在分布式系统,网络安全,海量服务等技术领域有丰富的经验。目前致力于区块链平台系统建设、以及推动基于区块链的业务落地。

分享内容:金融业务中区块链技术架构解析

分布式商业以多方参与、智能协同、专业分工、价值分享等为主要特征,典型的应用场景有银证信保的多方产品合作、N+N 供应链金融、分布式能源、分布式电商以及各类共享经济等。

随着分布式商业兴起,以区块链为代表的分布式账本技术价值逐渐凸显。具备“构建信任”能力的区块链技术,不仅可用于公有链,也能在联盟链中发挥巨大的效能。

在高安全、高性能、合法合规的金融场景里,对区块链技术的研究和创新业务模式的开展,会遇到大量的挑战,这次演讲会深入剖析区块链的底层技术和架构优化之道,分享业务落地的探索历程,以及开源社区运营的经验。通过技术和业务的努力,直面挑战,把区块链真正的使用到金融业务中。

分享提纲

  1. 展望业界,介绍区块链技术和架构发展概况
  2. 从密码学、数据、网络共识等方面解析区块链底层技术
  3. 分析区块链技术在性能、安全、隐私、应用落地等方面面临的挑战和解决之道

a 直面分布式系统不可能三角,在保证一致性、事务性、稳定性的前提下,突破瓶颈,提升系统性能

b 建设立体安全体系,从通信、存储、权限等多方面保障系统安全

c 平衡公开透明和隐私保护的诉求,通过架构优化、密码学、合作模式选择等多种形式保护商业隐私

d 从底层扩展区块链协议和功能,为业务开发和运营提供便利
4. 分享 FISCO BCOS 的平台建设,以及两个具体落地案例分享

七、天猫智慧门店技术专家:吕滨

分享内容:“智慧门店”背后的技术架构探索

在门店的商品、交易、会员、客流数字化过程中,虽然背靠成熟的、已有的电商系产品技术方案,但现实仍然很残酷。目前商家面临的主要痛点是:有门店缺客流,有粉丝无转化,有会员难互动。面对这些困难,天猫提出面向全域消费者运营的"智慧门店"解决方法。

如何从千人一策,实现精准营销?如何从在店成交,实现离店销售?如何从私人关系,实现组织连接?面对复杂的线下网络环境,天猫如何消灭那不到百分之一的投诉?

在经历了 2017 年双十一,2018 年 618 等几次考验后,天猫也逐渐摸索出了一条实践之路,和宝贵经验。

分享提纲

  1. 背景、命题、方案
  2. 门店数字化:消费者体验升级

a 在线下单,门店履约

b 到店购物,全域互动
3. 门店数字化:商家赋能

c 消费者沉淀,运营

d 交易转化,数据沉淀
4. 面临的挑战

a 红包不好发,弱网检测与飞行模式

b 数据说清楚,面向组织架构的统计

c 保障生命线,微服务的稳定性优化
5. 小步快跑,敏捷的背后

八、蚂蚁金服 Node.js 技术专家

不四,网名死马,现就职于蚂蚁金服体验技术部,专注在 Node.js 领域 6 年,搭建了阿里巴巴和蚂蚁金服内部 Node.js 模块管理系统、中间件服务等基础设施,负责内部 Node.js Web 框架的研发和开源。同时也是开源爱好者,Node.js Web 框架 Koa.js 和 Egg.js 的核心开发者,cnpm 中国镜像维护者。

分享内容:企业级 Node.js Web 框架研发与落地

Node.js 在 Web 应用中扮演越来越重要的角色,框架是其中的重中之重(要解决规范、效率、性能、安全等等问题)。Egg.js(开源) 是阿里和蚂蚁联合研发的企业级 Node.js Web 框架,不仅让使用者可以更轻松的使用 Node.js 进行 Web 研发,同时也支持让团队架构师基于 Egg.js 打造更适合团队的框架。

这次演讲将会介绍基于蚂蚁是怎样在 Egg.js 之上搭建贴合自身业务形态的研发模式以及在这个过程中的实战经验。

分享提纲

  1. 使用 Node.js 进行企业级 Web 研发会遇到的问题
  2. Egg.js 是什么,我们如何使用它来构建 Web 应用
  3. 蚂蚁在使用 Node.js 实践前后端分层架构中的经验分享

PS:更多 ArchSummit 现场分享

• Facebook:万亿级混合复杂时空数据的处理决策

• Pinterest:大数据平台现在与未来

• IBM: Istio- 构造、守护、监控微服务的守护神

• Go 项目组战略及产品负责人: GO,一个正在全球化现象

• 前 Tesla 视觉深度学习负责人:自动驾驶的计算机视觉技术

• 腾讯:织云Metis 时间序列异常检测全方位解析

• 阿里:跨境业务动态广告算法迭代

• 菜鸟:全球跨域RPC 架构设计

• 微博: AI 时代精准的个性化推荐

• 滴滴:地图引擎架构实践和AI 技术应用

• 余额宝: 1.7 万亿资金背后的大规模服务化技术创新

• 今日头条:大型直播互动系统的设计与实践

• 网易严选:售后服务架构演变实践

目前 ArchSummit 8 折报名仅剩最后一周点击此处可立即报名

PS:联系小助手豆包可获取更多优惠(微信:aschina666,或致电 010-84780850)。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-05-01 06:103212

评论

发布
暂无评论
发现更多内容

浅析 Cocoapods-Packager 实现

Edmond

ruby ios CocoaPods binary packager

多云的一点思考

HU

消息队列Kafka - acks参数

Java收录阁

kafka

韦小宝真的幸福吗 | Random Forest

张利东

Python 学习

MySQL的死锁系列- 锁的类型以及加锁原理

程序员历小冰

MySQL

HashMap 的 7 种遍历方式与性能分析

Bruce Duan

Java 性能 hashmap 遍历

说出来就不灵啦

伯薇

糊涂 活在当下 享受状态 生活状态 观察者

学习来应对创业的未知

Neco.W

创业 重新理解创业

DDD 实践手册(2. 实现分层架构)

Joshua

设计模式 领域驱动设计 DDD 系统架构 分层架构

InfoQ写作平台首秀,来个自我介绍

nuhcoad

个人感想

即将步入职场,忐忑而又期待的新人菜鸟

菜农阿飞

成长 新人

南丁格尔科普

小匚

使用 jsDelivr 免费加速 GitHub Pages 博客的静态资源

mzlogin

CDN Jekyll GitHub Pages 个人博客

高仿瑞幸小程序 00 准备工作

曾伟@喵先森

小程序 微信小程序 大前端 瑞幸

Day 47|Week 07-5 曾国藩家书|问学篇-学问何处何时都可做

熊小北同学

把成功过成自己的生活

子铭

成功学 生活状态

阿里巴巴Java开发手册泰山版解读

Bruce Duan

游戏夜读 | 2020周记(3.27-4.3)

game1night

KubeFATE: 用云原生技术赋能联邦学习(一)

亨利笔记

人工智能 学习 FATE KUBEFATE

关于5G RCS的产品猜想

机器鸟

神经网络的激活函数为什么要使用非线性函数

王坤祥

神经网络 激活函数

Netty 源码解析(四): Netty 的 ChannelPipeline

猿灯塔

Java并发编程系列——锁

孙苏勇

Java Java并发 并发编程 多线程

死磕Java并发编程(7):读写锁 ReentrantReadWriteLock 源码解析

Seven七哥

Java并发 读写锁 ReentrantReadWriteLock

程序员陪娃漫画系列——魔方

孙苏勇

程序员 生活 陪伴 漫画

经济大萧条对我的启示

Neco.W

创业 自我管理 职场 自我提升

从数据闭环谈微服务拆分

松花皮蛋me

微服务

怎样算是一个好的开发者?

水滴

开发者

MySQL中order by语句的实现原理以及优化手段

天堂

Java MySQL 性能优化

为什么正在使用的Java版本跟环境变量的版本不一致

阡陌r

Java 踩坑

如何优雅滴在手机上跑Python代码

王坤祥

Python 移动应用 手机编程

揭秘Google、Netflix等千亿市值企业的架构设计_架构_David_InfoQ精选文章