阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

eBay 的数据处理框架 Accelerator 提供并行执行和实时推荐功能

  • 2018-06-04
  • 本文字数:1032 字

    阅读完需:约 3 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

eBay 的数据处理框架 Accelerator 提供并行执行和自动组织源代码、输入数据及计算结果的功能。它可以用于数据分析、算法开发,以及拥有大型数据文件和多个 CPU 的实时推荐系统。它也有助于管理和记录数据文件、计算、计算结果和它们之间相互关系。

eBay 的团队最近开源了 Accelerator 框架。Accelerator 最初是由瑞典 AI 公司 Expertmaker 于 2012 开发。eBay 在 2016 年收购了 Expertmaker。

该框架用于处理像事物日志、事件日志和数据库转储这样的日志文件。Accelerator 是基于 C/S 的应用程序。它的架构包括一个“runner”客户端和两个名为“daemon”和“urd”的服务器。

runner 程序运行在 daemon 服务器上执行作业的脚本(称为构建脚本,build scripts)。该服务器将加载并存储执行的所有作业的信息和计算结果。同时,所有作业将由 urd 服务器存储到作业日志文件系统数据库中。

Urd 服务器把作业和它们的依赖项一起存储在基于日志文件的数据库中。所有在构建脚本中发生的事情都可能被记录到 Urd 中。

数据集是 Accelerator 的默认存储类型,专为并行处理和高性能而设计的。

数据集构建于作业之上,因此,数据集通过各种方法创建并存储在作业目录中,就像任何一个作业结果一样。单个作业也许包含任意数目的数据集,因此可以把一个输入数据集分成若干个新数据集。

该 Accelerator 的关键特性是重用计算结果和数据流。如果一项作业已经存在,Accelerator 将不再构建此项作业。这节省了执行时间,并有助于在用户之间共享计算结果。它还提供了可见性并确保了确定性。数据流有助于处理连续的数据块,比在数据库里执行查询更有效率。流式传输是实现从硬盘到 CPU 高带宽的最佳途径,可以很好地利用操作系统基于 RAM 的硬盘缓冲区。

Accelerator 内存占用很小,可以在笔记本电脑或机架式服务器上运行。在开源之前,像 Safeway、星巴克、eBay 和 Vodafone 这样的公司已经把它运用于项目中了。

它获得了 Apache 2.0 许可授权。如果您有兴趣了解更多关于 ExpertMaker Accelerator 的信息,请查阅 Github 存储库安装存储库用户参考手册

阅读英文原文 eBay’s Accelerator Data Processing Framework Provides Parallel Execution and Live Recommendations


感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-06-04 13:142735
用户头像

发布了 199 篇内容, 共 81.7 次阅读, 收获喜欢 293 次。

关注

评论

发布
暂无评论
发现更多内容

拒绝八股文!这篇图解动态路由分分钟爱了

wljslmz

网络工程师 网络技术 动态路由 6月月更 路由协议

linux驱动开发_文件系统本地挂载

DS小龙哥

6月月更

vue基本语法使用

小恺

6月月更

Flutter 使用 Redux 的中间件实现异步状态管理

岛上码农

flutter 安卓开发 ios 开发 跨平台应用 6月月更

Django API 开发:一个 Todo 应用的后端

宇宙之一粟

6月月更

浅谈网络攻防中守方的准备工作

kk冲击波

6月月更 攻防演练

修改gradle脚本,加速spring4.1源码编译构建速度

程序员欣宸

Java spring Gradle 6月月更

详述Java中sort排序函数

工程师日月

算法 Java EE 6月月更

【LeetCode】数组中第 K 个独一无二的字符串Java题解

Albert

LeetCode 6月月更

Web Service进阶(三)HTTP-GET, HTTP-POST and SOAP的比较

No Silver Bullet

soap 6月月更 Web Service HTTP-GET HTTP-POST

Linux驱动开发_数码相册项目、360WIFI驱动移植介绍

DS小龙哥

6月月更

Flink 通过 State Processor API 实现状态的读取和写入

JasonLee实时计算

flink

spring event 介绍

Nick

Java spring springboot 6月月更 spring event

Squarespace 和 WordPress 的区别

海拥(haiyong.site)

WordPress 6月月更

《WebRTC源码深入剖析》总结

音视频专家-李超

源码分析 音视频 WebRTC 源码剖析

《非暴力沟通》:如何温柔地沟通?

郭明

读书笔记

EasyRecovery15官方最新版下载功能介绍

茶色酒

EasyRecovery Easyrecovery破解 EasyRecovery15

关于 SAP Commerce Cloud 的 Sample Setup Github 仓库

Jerry Wang

typescript angular SAP commerce 6月月更

JavaScript迭代器

大熊G

JavaScript 前端 6月月更

【愚公系列】2022年06月 二十三种设计模式(二十二)-模板方法模式(Template Method Pattern)

愚公搬代码

6月月更

Web Service进阶(一)运行原理

No Silver Bullet

6月月更 Web Service 运行原理

Flink on yarn 远程调试源码

JasonLee实时计算

flink

Fork Join框架

急需上岸的小谢

6月月更

后端技术复习

卢卡多多

技术栈 6月月更

Linux下可执行程序的Shell传参格式规范

乌龟哥哥

6月月更

Fabric.js 居中元素 🎗️

德育处主任

fabric canvas FabricJS Fabric.js 6月月更

Kubernetes社区发行版:开源容器云OpenShift Origin(OKD)认知

山河已无恙

k8s openshift

C#入门系列(五) -- 运算符

陈言必行

C# 6月月更

每日一题 | LeetCode 242 有效的字母异位词

武师叔

哈希表 Leet Code 6月月更

【技能树共建】Python 三元表达式

梦想橡皮擦

6月月更

【盲盒APP】开发功能版块及功能介绍

WDL22119

eBay的数据处理框架Accelerator提供并行执行和实时推荐功能_大数据_Srini Penchikala_InfoQ精选文章