武汉的开发者们注意啦!AI技术战略、框架以及最佳实战尽在Azure OpenAI Day 了解详情
写点什么

Guagua:PayPal 的 Hadoop 迭代式计算框架

  • 2014-07-29
  • 本文字数:1648 字

    阅读完需:约 5 分钟

如何利用大数据训练风险控制的数学模型一直以来都是 PayPal 在欺诈交易检测的挑战。PayPal 在风险控制模型训练上大致经历过四个阶段:

  1. 决策树:早期 PayPal 使用简单的决策树模型,主要是由于早期的模型训练的数据量比较小,决策树模型的结果易于解释。
  2. 逻辑回归:当 PayPal 的业务越来越复杂,分控模型也随之越来越复杂,使用逻辑回归可以很容易的处理更大的数据量以及更多的特征;而且 PayPal 的线上风控服务可以快速实现这些逻辑回归的数学模型。
  3. 神经网络:为了弥补逻辑回归特征数量的限制,PayPal 使用了神经网络来训练特征值达到上千个的数学模型,但是由于没有分布式的训练框架和产品,训练数据一直受到单机的限制。
  4. 分布式的神经网络和逻辑回归:Hadoop 迭代式计算框架 Guagua 出现,解决了大数据的分布式训练问题,这样 PayPal 的所有风控数学模型不再有单机的数据限制,而且目前支持的最大模型的特征数量已经超过了 2500 个。

其中,Hadoop 迭代式计算框架 Guagua 是 PayPal 的一个开源机器学习框架 Shifu 的子项目,已经于今年四月开源

张彭善是PayPal Risk Data Science 部门的研发工程师,在PayPal 一直致力于使用Hadoop 解决风险控制数学模型的特征提取、训练及验证等工作,是Shifu 和Guagua 的主要开发人员。InfoQ 中文站编辑近日对张彭善进行了采访,了解这个框架的开发背景和应用状况。

InfoQ:首先问一下,这个框架为什么取了 Guagua 这个名字?

张彭善:这个名字的得来其实很随意。去年公司装修期间,我在家开发 Guagua 的时候,苦于没有一个合适的名字,我随手翻了本我儿子平时比较喜欢的一本故事书,看到上面一只小鸭子叫“呱呱”,我当时随手就用了这个名字。后来等到 Guagua 成型,一直想换一个名字,但是那时 Guagua 在公司内部已经有了很大的知名度,而且我的同事帮我设计了一个非常漂亮的 Logo,Guagua 就一直沿用至今了。

InfoQ:风险控制训练的业务特点是什么?

张彭善:风险控制数学模型的主要特点是训练数据量大、模型特征多、模型通用性低等等。

InfoQ:其训练的算法有什么样的特点?业内都有哪些公开的或者你了解的方法,各自有什么特点和不同?

张彭善:它的训练方法和其它的分类问题并没有太多不同,唯一比较大的不同是如何利用大数据来训练数学模型。业内有很多相关的算法,决策树、逻辑回归、神经网络、SVM 等等,但是主要都是单机实现。即便是 Apache Mahout 也并没有把分类模型的分布式做好(Mahout 中逻辑回归和神经网络均为单机算法)。

InfoQ:为什么要开发 Guagua?换句话说,Guagua 为什么是更适合你们业务特点的框架?

张彭善:在 PayPal,Guagua 主要解决的是机器学习分类模型的分布式训练问题,以往我们并没有分布式模型的训练框架或者产品,我们只能通过抽样来把我们的训练数据限定在单机规模。此外,由于单机计算资源和内存的限制,我们以前训练一个风控模型需要 10 小时左右的时间。使用 Guagua,数据和计算都在 Hadoop 之上实现了分布式,不仅训练数据达到了我们之前不敢想象的 TB 级别,而且训练时间也由 10 小时左右减少到 1 小时左右,且最终的模型没有比单机有任何的性能损失。

InfoQ:Guagua 现在哪些地方满足了你的要求,哪些方面还不完善,计划做哪些工作改进它?

张彭善:Guagua 主要解决了模型训练的分布式问题,现在 PayPal 可以利用大数据快速训练风控数学模型。同时 Guagua 并没有将自己局限在分类模型,Guagua 是一个基于 Hadoop 的迭代式计算框架,几乎任何基于迭代的算法都可以利用 Guagua 为其添加分布式功能。此外由于 Guagua 对分布式的良好支持,我们以前许多想做又不能做的工作比如模型特征自动选取都可以得以进行。

Guagua 目前主要支持的是同步的 Master-Workers 结构的迭代式计算框架,今后我们希望能够支持异步方式的迭代计算框架,2012 年 Google MapReduce 之父 Jeff Dean发表了一篇论文,上面提到了对神经网络深度模型的支持,文章介绍他们的 DistBelief 框架训练的神经网络的数学模型可以支持 10 亿级别的参数。这也是 Guagua 的另一个方向,支持超大规模的深度神经网络模型。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2014-07-29 03:312935

评论

发布
暂无评论
发现更多内容

合合信息与科瑞物业达成合作,数字名片提供企业数智化转型新机遇

合合技术团队

人工智能 合作 数字名片

@ControllerAdvice注解使用及原理探究 | 京东物流技术团队

京东科技开发者

spring 注解 源码解析 企业号 8 月 PK 榜 @ControllerAdvice

风很大的“云数仓”到底怎么用?三家企业交出答卷

字节跳动数据平台

数据库 云原生 企业号 8 月 PK 榜

基于Web3D+GIS智慧森林防火监测预警系统

2D3D前端可视化开发

智慧森林防火 森林火灾预警系统 森林火灾监测系统 森林数字防火 森林智能防火

入门级教程:使用Flask进行Python Web开发

Apifox

flask 后端 web开发 Python编程 Python Web框架

如何在数据库迁移中保证数据一致性?

java易二三

MySQL 数据库 编程 计算机

MoE 系列(六)|Envoy Go 扩展之并发安全

SOFAStack

golang 安全 后端 框架 envoy

绍兴市属于哪个省?是几线城市?有正规等保测评机构吗?

行云管家

等保 等级保护 等保测评 绍兴

SpringCloud-Hystrix服务熔断与降级工作原理&源码 | 京东物流技术团队

京东科技开发者

SpringCloud Hystrix 熔断降级 企业号 8 月 PK 榜

一种新的告警收敛方式“先知预警”,为您的系统健康护航 | 京东云技术团队

京东科技开发者

系统稳定性 预警监控 企业号 8 月 PK 榜

但因热爱,愿迎万难,OpenTiny Vue Playground正式上线🎉

OpenTiny社区

开源 Vue 前端

提升制造业智能化水平——免费MES系统的领航者

万界星空科技

开源 制造业生产管理系统

ubuntu16.04升级python3.7.1教程

百度搜索:蓝易云

Python 云计算 Linux ubuntu 运维

数据库内核之Binder

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne 超融合数据库

易点天下KreadoAI正式上架亚马逊云科技Marketplace全球商业化加速落地

新消费日报

带你认识数仓的监控系统TopSQL

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

deepin系统安装php8教程。

百度搜索:蓝易云

php 云计算 Linux 运维 deepin

物理机是什么?有什么优势?可以上堡垒机吗?

行云管家

等保 堡垒机 等级保护 物理机

火山引擎DataLeap:更强数据目录搜索能力,做到一步找数

字节跳动数据平台

大数据 数据中台 数据研发 企业号 8 月 PK 榜

下一代MES系统架构分析与选型参考

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

合合信息通过ISO/IEC国际标准双认证,为全球用户提供高合规标准AI服务

合合技术团队

人工智能 数据安全 个人信息保护

如何规划税务数智化建设

用友BIP

税务管理

创新赛制,顶尖赛题!| 2023第二届粤港澳大湾区(黄埔)国际算法算例大赛十赛道虚位以待!

ModelWhale

人工智能 深度学习 数据竞赛 琶洲 粤港澳大湾区

人人都在聊的IPD(集成产品开发)到底是什么?一文让你读懂TA!

禅道项目管理

华为 项目管理 软件 硬件

关于搭建海外社交APP源码的干货

山东布谷网络科技

海外直播源码

【华秋推荐】物联网入门学习模块 ESP8266

华秋电子

物联网

JDK1.6在生产环境引起的坑

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

不要仅限于只做测试工作

老张

软件测试 职场成长

MoE 系列(七)| Envoy Go 扩展之沙箱安全

SOFAStack

golang 后端 框架 envoy 安全沙箱

如何判断线程池任务执行完?

王磊

java面试

从生态的角度看容器和虚拟化的区别

品高云计算

Guagua:PayPal的Hadoop迭代式计算框架_大数据_sai_InfoQ精选文章