生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

联邦学习可能会带来数据价值挖掘的下一个爆发点

  • 2020-04-27
  • 本文字数:4154 字

    阅读完需:约 14 分钟

联邦学习可能会带来数据价值挖掘的下一个爆发点

近两年,联邦学习技术发展迅速。作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,从技术上打破数据孤岛。但是,目前这一技术在很多企业落地遇到了困难,InfoQ 将通过选题的方式逐一介绍各大公司如何落地实践该技术。


2016 年,谷歌正式提出联邦学习的概念。同期,国内不少科技公司开始了对联邦学习的探索,并已经成功应用在了业务中。任何技术都不是银弹,联邦学习也是如此。那么,当一家企业具备哪些特征或者出现哪些问题时可以尝试联邦学习?开发者如何参与进来?联邦学习的未来有哪些值得开发者期待的可能变化?本文,InfoQ 有幸对数牍科技联合创始人 & CTO 蔡超超进行了独家采访,了解联邦学习在数牍科技的落地实践及他对企业的部署建议。

数据孤岛是 AI 发展的一大壁垒

从表面上看,近几年的人工智能发展快速,无论是政府政策还是市场需求,人工智能都受到了很高的关注度。但事实是,尽管人工智能从 2012 年深度学习理论被实践验证后得到了飞速的发展,但我们现在仍然处于人工智能的初级阶段。原因就是当前的人工智能,都是被数据所驱动的智能。本质上是被大体量数据不断训练出来,再通过算法模拟出来的“智能”,并非是机器真的有自己的判断逻辑。


现阶段,我们依赖数据。因而,数据孤岛的存在成为人工智能发展的一大壁垒,这极大限制了企业可利用的数据量。采访中,蔡超超表示,除了数据孤岛,企业对数据的实际应用中也有保护核心高价值数据的需求,通过隐私计算和联邦学习实现数据的所有权和使用权分离是一种有效的解决方式。具体来说,隐私计算和联邦学习可以增加可用数据的总量,与人工智能一起形成螺旋式上升。人工智能产业的发展主要基于机器学习技术,难以脱离数据单独前进,联邦学习在解决内部数据不足问题上有很好的表现,可以助力人工智能企业的发展。同样的,人工智能市场的繁荣发展让更多终端场景产品的不断落地也会收集更多数据会分布在不同地点,促进联邦学习更大规模的应用,如此看来,联邦学习和人工智能一起形成螺旋式上升模式。


规范数据使用可以在汇聚更多数据的基础上迎来价值挖掘的下一个爆发点,带动 AI 的数据基础设施进步,隐私计算未来会逐步成为 AI 的基础设施。


具体来说,隐私计算或者说联邦学习用到的技术包括:差分隐私、MPC、机器学习、TEE 等,这是数据科学、密码学、分布式计算与存储的综合工程,而不是单一的密码学。蔡超超补充道,这个过程最大的挑战是工程实践和实际落地能力,需要数据科学和工程的经验积累才能设计出真正工程可用的产品。


既然是解决数据孤岛问题,那做个中台把数据打通可不可以?还需要联邦学习吗?

中台做不了联邦学习的事儿

在数据中台的价值中,其中一条就是打通各业务线的数据。经过去年的“中台热”,不少企业内部可能已经构建起了数据中台,并对解决数据问题信心满满。“数据中台的存在可以为联邦学习提供良好的数据环境,但并非必要条件”,蔡超超表示,“数据中台和联邦学习是有本质区别的。


”如上文言,联邦学习最早由谷歌于 2016 年提出,用于解决安卓手机终端用户在本地更新模型的问题,是一种分布式的机器学习技术 / 框架。联邦学习可以在不分享数据的基础上,实现共同建模,并提升模型效果,适用场景包括单方样品数量不够充分,单方数据维度不够丰富。整个学习训练过程,没有任何原始数据的泄露,起到保护数据隐私 / 核心价值的作用。


数据中台则更像是企业内部对现有数据流处理的一种综合应用。


数据中台可以帮助企业内部实现业务数据的分层和水平解耦,沉淀出公共的数据资源。通常可将其划分为三层:数据模型、数据服务与数据开发。数据建模帮助企业完成跨域数据整合和知识的沉淀;数据服务层可帮助实现对数据的封装和开放功能,更灵活的满足上层应用的要求;使用数据开发工具来满足个性化数据和应用方面的需要。综上,数据中台的存在可以为联邦学习提供良好的数据环境,但并非必要条件。

联邦学习是一个综合工程

技术世界没有银弹,联邦学习也不是万能药,并不是每家企业都需要即可部署。在采访中,蔡超超表示,当企业遇到如下两种情况可能需要通过联邦学习解决问题:一是涉及到保护数据隐私和核心价值的场景,因为联邦学习的整个学习训练过程,没有传输任何原始数据;二是多方数据补充的场景,这可能存在单方样品数量不够充分或单方数据维度不够丰富的情况。


简单来说,如果企业确实有对隐私数据核心价值保护以及数据对外协作的需求,可以考虑尝试联邦学习技术。但要清楚,联邦学习不是简单的机器学习技术,而是一个结合了数据科学、密码学、分布式计算与存储的综合工程,企业需要一个有综合实力的研发团队的支持,而且对个人的技术要求也比较高,需要充足的前期训练以及良好的团队配合,可能需要度过一个漫长的准备期。而且,联邦学习项目本身与数据和计算相关,对数据和场景的理解也很重要,需要数据科学和工程的经验积累才能设计出真正工程可用的产品,要为实用而加密,而非为了加密而加密。


此外,在过往的采访中,不少企业对联邦学习的部署效果存在担忧,在最初的尝试中,数牍科技同样对此抱有担忧。蔡超超表示:“我们在实践的时候也发现初级版的联邦学习确实有不少效果问题,例如模型不能很好的收敛, 或者是精度 / 效率问题。随着技术的优化,特别是综合数据科学,密码学,分布式技术后,整体的效果有了非常大的提高,在大部分场景下,模型整体精度基本和传统方法没有太大差别。”联邦学习在数牍科技的实践


在数牍科技,团队对联邦学习的探索和实践分为如下三个阶段:


  • 早期追踪阶段:团队成员在谷歌 2016 年提出联邦学习的概念时就开始关注。

  • 实际探索使用:在 Facebook 剑桥门事件(Facebook 被报道不正当分享其用户信息来影响美国总统大选的结果)中充分认识到联邦学习带来的独特优点,并在内部产品开始实践使用。团队也注意到初级版本联邦学习的挑战,包括部分精度丢失、需要中间方协助更新、与加密学技术结合不够完善、数据合作模式单一等问题。

  • 联邦学习平台建立:团队成员有着丰富的联邦学习实践和开发改进经验。以此为基础,融合多方安全计算等多项技术,搭建综合性隐私计算平台。


蔡超超表示,原始的联邦学习框架是在机器学习本身技术层面思考信息流的传递,并保护数据不出库。如果结合密码学技术,不仅可以保护原始数据,同时也可以对中间信息流进一步加密封装,从而提高系统安全性,各项技术的结合使用能保证计算效率,实现工业级可用,比如:


  • 差分隐私,同态加密,秘密分享等技术的综合应用,能对数据隐私实现端到端的闭环保护;

  • 分布式计算的实践效果可以让平台具备支持海量处理的能力,可处理 10 亿样本量的常规模型;

  • 工程落地经验和对代码、算法的优化,可以把隐私计算系统也做到实时响应;


在金融风控场景中,银行希望引入外部数据源做特征补充来建立联合模型。基于用户授权,联邦学习技术可以在保证数据安全不出库的同时,整合不同机构间对用户行为特征不同维度的捕捉,以用户为基础,形成对个人的较为全面的描述。对比传统模型方式,该模型可以学到更多用户信息,从而提升模型效果,促进业务发展,实现降本增效。整体上,模型效果往往可以提升 30% 以上。


以个人信用风险评估项目为例,当前金融信贷业务中往往受限于数据不够丰富,在数据可解释性及稳定性、风控模型效果、风险策略和获客成本等层面面临诸多挑战,借助联邦建模可以在保护用户信息不泄露的前提下将来自支付应用的消费数据、交通出行数据等更多维度纳入联合风控模型中,从而构建更精准大数据风控模型用以测算借款自然人。目前,数牍科技提供的联邦学习技术,能帮助客户在不分享原始数据的前提下,结合外部 1000+ 数据特征联合建模,提高模型效果;可按需要将模型快速部署在任何一方或者多方,且对模型严格加密,避免策略泄露。实践效果如下:


  • 评分卡模型交叉多方数据,增加模型入模变量,模型 AUC 提升近 0.1;

  • 提升客户风险定价能力,辅助风险策略额外挖掘 2% 产品目标人群;


蔡超超补充道,数牍科技的联邦学习平台可以在数据量子级保护的条件下,结合金融机构与外部数据源的数据训练机器学习模型,提供信贷风控、营销等方向的业务支持。


  • 数据单次随机加密,量子级保护,防止线下字典攻击;

  • 加密过程中无需牺牲数据精度,做到无损数据挖掘;

  • 去中心化结构,双方原始数据出库,充分保护数据的安全性。

联邦学习的未来愿景

衡量一项技术的发展,标准制定和大规模应用是两个很重要的因素。


联邦学习是为了解决跨机构间的数据融合问题,无论是从隐私安全方面,还是从保证数据格式统一层面讲,标准的制定对联邦学习的大规模落地具备重要意义。现阶段,国内外都在相继制定和推出联邦学习的标准规范,如联邦学习国际标准 IEEE P3652.1(联邦学习基础架构与应用)、《联邦学习白皮书 2.0》等,数牍科技也正在与信通院等标准制定机构合作,参与企业外部数据合作相关标准的建立,提供技术顾问和隐私保护最佳案例的参考。


从整个数据产业看,联邦学习可以增加可用数据的总量,能很好的解决现存数据孤岛的问题;对企业自身而言,使用联邦学习能简单、合法且低成本的获取外部有效的数据信息,快速解决某些因数据量或数据维度不足而导致的困扰,而且也不会造成合作企业间数据或商业机密的泄露。蔡超超认为,规范数据使用可以在汇聚更多数据的基础上迎来数据价值挖掘的下一个爆发点,带动 AI 的数据基础设施进步,隐私计算未来会逐步成为 AI 的基础设施。


现阶段要用到联邦学习的场景需求是很多的,但大规模落地还未到来,除了以上提到的政策和标准待完善的问题,还有就是对工程师的技能要求很高,例如使用联邦学习做隐私建模等技术需要更多的知识普及和经验积累,但随着市场需求和技术解决方案的逐步清晰,相信越来越多的企业参与其中,联邦学习助力数据流动,让数据孤岛联结成网。


嘉宾介绍:


蔡超超,数牍科技联合创始人 & CTO。曾先后任职于 Amazon、Facebook, 机器学习和联邦学习专家。在 Facebook 广告部门期间,作为技术主管主导了多平台图谱、用户画像预测等项目,获得 Facebook Distinguished Equity,30 多项美国国家专利。加州大学洛杉矶分校(UCLA)机器学习博士。


专题推荐:


为了解联邦学习在金融领域的应用现状、落地困境和破解之道,InfoQ 先后采访了平安科技、蚂蚁金服、腾讯、微众银行以及京东数科。专题链接如下:


https://www.infoq.cn/theme/58


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-04-27 13:433299
用户头像
赵钰莹 InfoQ 主编

发布了 874 篇内容, 共 602.9 次阅读, 收获喜欢 2670 次。

关注

评论

发布
暂无评论
发现更多内容

90%的Java开发人员都会犯的5个错误

JAVA旭阳

Java

HTTP其他首部字段

穿过生命散发芬芳

HTTP 12月月更

软件测试面试真题 | web自动化关闭浏览器,quit()和close()的区别

测试人

软件测试 面试题 自动化测试 测试开发 web测试

作为一个研发凭什么花大量时间修安全漏洞?

墨菲安全

安全 开发

【MySQL】数据库索引 - 浅谈索引类型

非晓为骁

Go 数据库 索引 MySQL 数据库

功能上新|使用 Excel 低门槛进行指标分析!

Kyligence

数据分析 指标管理

Syscoin宣布与Web3孵化器WEconomy建立长期合作伙伴关系

100DAO 加速计划

DAO #Syscoin #区块链 #Web3

移动办公时代,就看华为云桌面

秃头也爱科技

直播倒计时1天!“基于AIOps的全面可观测性网络研讨会”与你不见不散

博睿数据

根因分析 直播 智能运维 博睿数据

PM&PMO汇报工作的5大技巧,学会了让老板眼前一亮!

PMO实践

PMO 年终报告 年终总结 项目经理

华为云发布CodeArts Req需求管理工具,让需求管理化繁为简

IT科技苏辞

云渲染时可以关机吗_云渲染电脑可以关闭吗?

Renderbus瑞云渲染农场

云渲染

华为云HECS云耀云服务器:全民上云的开拓者

秃头也爱科技

Git之使用GitHub搭建远程仓库

攻城狮Wayne

GitHub、 git 学习 代码托管 分支管理 clone代码

说透IO多路复用模型

京东科技开发者

开发 系统 epoll poll Lunix

案例 | 九科信息为某大型科研单位设计财务系统科目预警RPA

九科Ninetech

华为时习知,让企业培训更简单!

IT科技苏辞

远程办公成趋势,华为云桌面为何连续7年领跑?

秃头也爱科技

案例分享:硬件敏捷

ShineScrum捷行

Scrum 敏捷开发 TDD 硬件敏捷

重磅 | 九科信息成功入选中国交通建设集团财务云(RPA)项目

九科Ninetech

华为云助推武水集团项目成功入选住建部“智慧水务”典型案例!

秃头也爱科技

架构实战营 模块三作业 外包学生管理系统架构设计

西山薄凉

「架构实战营」

Java高手速成│Java程序怎样和数据库对话

TiAmo

JDBC 数据库· 12月月更

小数据治理靠“人工”,大数据治理靠“智能”

用友BIP

站在2023起跑线,政企数字化如何深入“核心地带”?

脑极体

一图了解人造石墨负极材料上中下游全产业链

PreMaint

新能源 锂电池

云上办公,华为云桌面为何能连续7年第一?

秃头也爱科技

Tapdata Cloud 场景通关系列: Oracle → MySQL 异构实时同步

tapdata

oracle 异构数据 MySQL 数据库 实时数据 数据同步工具

2022-12-28:有n个黑白棋子,它们的一面是黑色,一面是白色, 它们被排成一行,位置0~n-1上。一开始所有的棋子都是黑色向上, 一共有q次操作,每次操作将位置标号在区间[L,R]内的所有棋子翻

福大大架构师每日一题

golang 算法 福大大

Gitea 的邮件通知

HoneyMoose

阿里云对话 Tapdata:以秒级响应速度,为企业提供实时数据服务

tapdata

ETL 实时数据 DaaS 现代数据栈

联邦学习可能会带来数据价值挖掘的下一个爆发点_AI&大模型_赵钰莹_InfoQ精选文章