写点什么

联邦学习可能会带来数据价值挖掘的下一个爆发点

2020 年 4 月 27 日

联邦学习可能会带来数据价值挖掘的下一个爆发点

近两年,联邦学习技术发展迅速。作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,从技术上打破数据孤岛。但是,目前这一技术在很多企业落地遇到了困难,InfoQ 将通过选题的方式逐一介绍各大公司如何落地实践该技术。


2016 年,谷歌正式提出联邦学习的概念。同期,国内不少科技公司开始了对联邦学习的探索,并已经成功应用在了业务中。任何技术都不是银弹,联邦学习也是如此。那么,当一家企业具备哪些特征或者出现哪些问题时可以尝试联邦学习?开发者如何参与进来?联邦学习的未来有哪些值得开发者期待的可能变化?本文,InfoQ 有幸对数牍科技联合创始人 & CTO 蔡超超进行了独家采访,了解联邦学习在数牍科技的落地实践及他对企业的部署建议。


数据孤岛是 AI 发展的一大壁垒


从表面上看,近几年的人工智能发展快速,无论是政府政策还是市场需求,人工智能都受到了很高的关注度。但事实是,尽管人工智能从 2012 年深度学习理论被实践验证后得到了飞速的发展,但我们现在仍然处于人工智能的初级阶段。原因就是当前的人工智能,都是被数据所驱动的智能。本质上是被大体量数据不断训练出来,再通过算法模拟出来的“智能”,并非是机器真的有自己的判断逻辑。


现阶段,我们依赖数据。因而,数据孤岛的存在成为人工智能发展的一大壁垒,这极大限制了企业可利用的数据量。采访中,蔡超超表示,除了数据孤岛,企业对数据的实际应用中也有保护核心高价值数据的需求,通过隐私计算和联邦学习实现数据的所有权和使用权分离是一种有效的解决方式。具体来说,隐私计算和联邦学习可以增加可用数据的总量,与人工智能一起形成螺旋式上升。人工智能产业的发展主要基于机器学习技术,难以脱离数据单独前进,联邦学习在解决内部数据不足问题上有很好的表现,可以助力人工智能企业的发展。同样的,人工智能市场的繁荣发展让更多终端场景产品的不断落地也会收集更多数据会分布在不同地点,促进联邦学习更大规模的应用,如此看来,联邦学习和人工智能一起形成螺旋式上升模式。


规范数据使用可以在汇聚更多数据的基础上迎来价值挖掘的下一个爆发点,带动 AI 的数据基础设施进步,隐私计算未来会逐步成为 AI 的基础设施。


具体来说,隐私计算或者说联邦学习用到的技术包括:差分隐私、MPC、机器学习、TEE 等,这是数据科学、密码学、分布式计算与存储的综合工程,而不是单一的密码学。蔡超超补充道,这个过程最大的挑战是工程实践和实际落地能力,需要数据科学和工程的经验积累才能设计出真正工程可用的产品。


既然是解决数据孤岛问题,那做个中台把数据打通可不可以?还需要联邦学习吗?


中台做不了联邦学习的事儿


在数据中台的价值中,其中一条就是打通各业务线的数据。经过去年的“中台热”,不少企业内部可能已经构建起了数据中台,并对解决数据问题信心满满。“数据中台的存在可以为联邦学习提供良好的数据环境,但并非必要条件”,蔡超超表示,“数据中台和联邦学习是有本质区别的。


”如上文言,联邦学习最早由谷歌于 2016 年提出,用于解决安卓手机终端用户在本地更新模型的问题,是一种分布式的机器学习技术 / 框架。联邦学习可以在不分享数据的基础上,实现共同建模,并提升模型效果,适用场景包括单方样品数量不够充分,单方数据维度不够丰富。整个学习训练过程,没有任何原始数据的泄露,起到保护数据隐私 / 核心价值的作用。


数据中台则更像是企业内部对现有数据流处理的一种综合应用。


数据中台可以帮助企业内部实现业务数据的分层和水平解耦,沉淀出公共的数据资源。通常可将其划分为三层:数据模型、数据服务与数据开发。数据建模帮助企业完成跨域数据整合和知识的沉淀;数据服务层可帮助实现对数据的封装和开放功能,更灵活的满足上层应用的要求;使用数据开发工具来满足个性化数据和应用方面的需要。综上,数据中台的存在可以为联邦学习提供良好的数据环境,但并非必要条件。


联邦学习是一个综合工程


技术世界没有银弹,联邦学习也不是万能药,并不是每家企业都需要即可部署。在采访中,蔡超超表示,当企业遇到如下两种情况可能需要通过联邦学习解决问题:一是涉及到保护数据隐私和核心价值的场景,因为联邦学习的整个学习训练过程,没有传输任何原始数据;二是多方数据补充的场景,这可能存在单方样品数量不够充分或单方数据维度不够丰富的情况。


简单来说,如果企业确实有对隐私数据核心价值保护以及数据对外协作的需求,可以考虑尝试联邦学习技术。但要清楚,联邦学习不是简单的机器学习技术,而是一个结合了数据科学、密码学、分布式计算与存储的综合工程,企业需要一个有综合实力的研发团队的支持,而且对个人的技术要求也比较高,需要充足的前期训练以及良好的团队配合,可能需要度过一个漫长的准备期。而且,联邦学习项目本身与数据和计算相关,对数据和场景的理解也很重要,需要数据科学和工程的经验积累才能设计出真正工程可用的产品,要为实用而加密,而非为了加密而加密。


此外,在过往的采访中,不少企业对联邦学习的部署效果存在担忧,在最初的尝试中,数牍科技同样对此抱有担忧。蔡超超表示:“我们在实践的时候也发现初级版的联邦学习确实有不少效果问题,例如模型不能很好的收敛, 或者是精度 / 效率问题。随着技术的优化,特别是综合数据科学,密码学,分布式技术后,整体的效果有了非常大的提高,在大部分场景下,模型整体精度基本和传统方法没有太大差别。”联邦学习在数牍科技的实践


在数牍科技,团队对联邦学习的探索和实践分为如下三个阶段:


  • 早期追踪阶段:团队成员在谷歌 2016 年提出联邦学习的概念时就开始关注。

  • 实际探索使用:在 Facebook 剑桥门事件(Facebook 被报道不正当分享其用户信息来影响美国总统大选的结果)中充分认识到联邦学习带来的独特优点,并在内部产品开始实践使用。团队也注意到初级版本联邦学习的挑战,包括部分精度丢失、需要中间方协助更新、与加密学技术结合不够完善、数据合作模式单一等问题。

  • 联邦学习平台建立:团队成员有着丰富的联邦学习实践和开发改进经验。以此为基础,融合多方安全计算等多项技术,搭建综合性隐私计算平台。


蔡超超表示,原始的联邦学习框架是在机器学习本身技术层面思考信息流的传递,并保护数据不出库。如果结合密码学技术,不仅可以保护原始数据,同时也可以对中间信息流进一步加密封装,从而提高系统安全性,各项技术的结合使用能保证计算效率,实现工业级可用,比如:


  • 差分隐私,同态加密,秘密分享等技术的综合应用,能对数据隐私实现端到端的闭环保护;

  • 分布式计算的实践效果可以让平台具备支持海量处理的能力,可处理 10 亿样本量的常规模型;

  • 工程落地经验和对代码、算法的优化,可以把隐私计算系统也做到实时响应;


在金融风控场景中,银行希望引入外部数据源做特征补充来建立联合模型。基于用户授权,联邦学习技术可以在保证数据安全不出库的同时,整合不同机构间对用户行为特征不同维度的捕捉,以用户为基础,形成对个人的较为全面的描述。对比传统模型方式,该模型可以学到更多用户信息,从而提升模型效果,促进业务发展,实现降本增效。整体上,模型效果往往可以提升 30% 以上。


以个人信用风险评估项目为例,当前金融信贷业务中往往受限于数据不够丰富,在数据可解释性及稳定性、风控模型效果、风险策略和获客成本等层面面临诸多挑战,借助联邦建模可以在保护用户信息不泄露的前提下将来自支付应用的消费数据、交通出行数据等更多维度纳入联合风控模型中,从而构建更精准大数据风控模型用以测算借款自然人。目前,数牍科技提供的联邦学习技术,能帮助客户在不分享原始数据的前提下,结合外部 1000+ 数据特征联合建模,提高模型效果;可按需要将模型快速部署在任何一方或者多方,且对模型严格加密,避免策略泄露。实践效果如下:


  • 评分卡模型交叉多方数据,增加模型入模变量,模型 AUC 提升近 0.1;

  • 提升客户风险定价能力,辅助风险策略额外挖掘 2% 产品目标人群;


蔡超超补充道,数牍科技的联邦学习平台可以在数据量子级保护的条件下,结合金融机构与外部数据源的数据训练机器学习模型,提供信贷风控、营销等方向的业务支持。


  • 数据单次随机加密,量子级保护,防止线下字典攻击;

  • 加密过程中无需牺牲数据精度,做到无损数据挖掘;

  • 去中心化结构,双方原始数据出库,充分保护数据的安全性。


联邦学习的未来愿景


衡量一项技术的发展,标准制定和大规模应用是两个很重要的因素。


联邦学习是为了解决跨机构间的数据融合问题,无论是从隐私安全方面,还是从保证数据格式统一层面讲,标准的制定对联邦学习的大规模落地具备重要意义。现阶段,国内外都在相继制定和推出联邦学习的标准规范,如联邦学习国际标准 IEEE P3652.1(联邦学习基础架构与应用)、《联邦学习白皮书 2.0》等,数牍科技也正在与信通院等标准制定机构合作,参与企业外部数据合作相关标准的建立,提供技术顾问和隐私保护最佳案例的参考。


从整个数据产业看,联邦学习可以增加可用数据的总量,能很好的解决现存数据孤岛的问题;对企业自身而言,使用联邦学习能简单、合法且低成本的获取外部有效的数据信息,快速解决某些因数据量或数据维度不足而导致的困扰,而且也不会造成合作企业间数据或商业机密的泄露。蔡超超认为,规范数据使用可以在汇聚更多数据的基础上迎来数据价值挖掘的下一个爆发点,带动 AI 的数据基础设施进步,隐私计算未来会逐步成为 AI 的基础设施。


现阶段要用到联邦学习的场景需求是很多的,但大规模落地还未到来,除了以上提到的政策和标准待完善的问题,还有就是对工程师的技能要求很高,例如使用联邦学习做隐私建模等技术需要更多的知识普及和经验积累,但随着市场需求和技术解决方案的逐步清晰,相信越来越多的企业参与其中,联邦学习助力数据流动,让数据孤岛联结成网。


嘉宾介绍:


蔡超超,数牍科技联合创始人 & CTO。曾先后任职于 Amazon、Facebook, 机器学习和联邦学习专家。在 Facebook 广告部门期间,作为技术主管主导了多平台图谱、用户画像预测等项目,获得 Facebook Distinguished Equity,30 多项美国国家专利。加州大学洛杉矶分校(UCLA)机器学习博士。


专题推荐:


为了解联邦学习在金融领域的应用现状、落地困境和破解之道,InfoQ 先后采访了平安科技、蚂蚁金服、腾讯、微众银行以及京东数科。专题链接如下:


https://www.infoq.cn/theme/58


2020 年 4 月 27 日 13:432481
用户头像
赵钰莹 InfoQ高级编辑

发布了 654 篇内容, 共 388.0 次阅读, 收获喜欢 2109 次。

关注

评论

发布
暂无评论
发现更多内容

程序的机器级表示-访问数据

引花眠

轻松应对并发问题,Newbe.Claptrap 框架中 State 和 Event 应该如何理解?

newbe36524

分布式 微服务 架构设计 .net core ASP.NET Core

简易web性能工具

Arvin

第8周作业

小胖子

JDK1.8新特性(六):Stream的终极操作,轻松解决集合分组、汇总等复杂操作

xcbeyond

stream 集合 新特性 JDK1.8 Collections

应用程序研发之网络-网络编程模型

superman

门面效应 - 拒绝别人会产生愧疚吗?

石云升

心理学 门面效应 留面子效应

云图说|“真人?机器?傻傻分不清!” WAF Bot管理,带你慧眼辨“精”!

华为云开发者社区

bootstrap 搜索引擎 安全 防火墙 华为云

周末在家加班开发代扣支付网关!

诸葛小猿

加班

从零开始写一个迷你版的Tomcat

简爱W

第8周-作业2

seng man

读完《云原生架构白皮书》,我们来谈谈开放应用模型(OAM)

郭旭东

Kubernetes 云原生 OMA

安全系列之——手写JAVA加密、解密

诸葛小猿

对称加密 加密解密 非对称加密 rsa AES

MySQL主从复制详解

Simon

MySQL 主从复制

百万并发「零拷贝」技术系列之Linux实现

码农神说

Java 架构 零拷贝

应用程序研发之网络-分层模型

superman

架构师训练营第八周课后总结

Cloud.

MySQL 百万级数据量分页查询方法及其优化

xcbeyond

SQL优化 数据库优化

第8周-作业1

seng man

ARTS 06 - Jenkins 多分支项目过滤及 when 的高级用法

jerry.mei

学习 算法 ARTS 打卡计划 CI/CD ARTS活动

LeetCode题解: 206. 反转链表,JavaScript,容易理解的递归解释,详细注释

Lee Chen

LeetCode 前端进阶训练营

计算机的时钟(二):Lamport逻辑时钟

ElvinYang

初识进程coredump(以中间件为例)异常宕机

清康

ARTS打卡 第9周

引花眠

ARTS 打卡计划

应用程序研发之网络 - Http

superman

Jenkins 多分支项目过滤及 when 的高级用法

jerry.mei

DevOps 运维 自动化 jenkins CI/CD

封装element-ui表格,我是这样做的

前端有的玩

Java Vue Element 封装

5万字长文:Stream和Lambda表达式最佳实践-附PDF下载

程序那些事

Java jdk Lambda stream

C++编译过程 宏 内联和静态变量

大规模数据处理学习者

Flink 使用大状态时的一点优化

Apache Flink

flink RocksDB

Java 8 中的函数式接口

陈皮

联邦学习可能会带来数据价值挖掘的下一个爆发点-InfoQ