写点什么

Precog:大数据分析即服务

  • 2012-10-11
  • 本文字数:1153 字

    阅读完需:约 4 分钟

近日, Precog 宣布了他们的大数据仓储和分析服务,该服务负责处理数据的抓取、变换分析和可视化等过程,以及服务运行所基于的基础架构。不过,这一服务也通过 RESTful API 预留了各种开放的访问点,支持开发者和数据科学家控制整个过程。

Precog 可以从各种数据源抓取输入数据,其中包括 SQL 数据库、Amazon S3、Hadoop、MongoDB、客户端 Web 应用和后端服务器等。 RESTful API 支持开发者从外部源(如 Twitter 或 Facebook)、CSV 文件或移动设备抓取数据。抓取的数据保存到一个叫做 PrecogDB 的定制数据库中,而且我们还可以使用人群统计、态度、位置和其他信息使数据更为丰富。

之后,数据可以通过多种手段加以分析,比如通过一个 API ,或是利用客户库(JavaScript,PHP),或者使用 Labcoat (一种支持使用 Quirrel 这种声明式查询语言进行数据分析的 IDE)。开发者可以创建自己的数据抓取、强化和分析模块,甚至可以将这些模块拿到市场上销售。

Precog 能够将整个过程运行在不同的云供应商之上——如 Amazon EC2 和 SoftLayer——以便增加系统的弹性和正常运行时间。

在 InfoQ 进行的一次采访中,Precog 的 CEO 和创始人 John A. De Goes 解释到:

“(系统的)架构与数据库分析有些相似,比如都包括面向列的存储;但是其区别在于,前者支持完全异构的、非规范化的数据,通过对 Quirrel 的支持,相对于使用 RDBMS 进行分析,使用这种类似于“面向大数据的 R”的语言,你能够很方便地执行很多更为高级的计算。”

PrecogDB 是该平台的核心,它是一种用 Scala 编写的、面向列的数据库,运行在 JVM 上,它也为数据捕获和分析进行了优化。据 De Goes 介绍,PrecogDB 中可以保存“测量数据,如点击、购买、尺寸、Twitter 数据,或是收集自其他各种活动的日志信息”。他还补充道,“Precog 尚不能存储大块的非结构化数据,尽管在生物信息学和其他一些领域的应用的确有这种需求。不过这一功能已经在我们的路线图上了。”

至于 Quirrel——这种由 Precog 实现的统计查询语言,De Goes 谈到:“Quirrel 很多方面都与 R 编程语言比较相似。像 R 一样,Quirrel 也是为高级的分析与统计而设计的。但与 R 不同的是,Quirrel 并非图灵完备的语言,它是纯声明式的,利用它更容易高效地在大规模集群的机器中分发 Quirrel 查询(这也使 Quirrel 比 R 更容易学习)。”

PrecogDB 有一些“用于常见的分析与统计计算的内置例程”,它还提供了一个“细粒度的、基于能力的安全模型,支持来自移动设备或 Web 的应用程序通过 RESTAPI 直接访问其功能”。

查看英文原文 Precog: Big Data Analytics as a Service


感谢侯伯薇对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2012-10-11 01:514572
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 148.1 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

打通IO栈:一次编译服务器性能优化实战

AI乔治

Java 编程 架构 io 高性能

一次百万长连接压测 Nginx OOM 的问题排查分析

AI乔治

Java nginx 架构 服务端 高性能

架构师训练营第四周作业

脸不大

ClickHouse最佳实战之分布表写入流程分析

京东科技开发者

数据库

让超宽带抵达产业互联网:UBBF上演智能联接全面落地

脑极体

Flink周期性水位线分配器-6-3

小知识点

scala 大数据 flink

Netty源码解析 -- 客户端启动过程

binecy

Netty nio 源码阅读

系统架构--作业

Nick~毓

12张图带你彻底理解分布式事务产生的场景和解决方案!!

冰河

分布式事务 2PC 可靠消息最终一致 TCC 最大努力通知

芯片破壁者(十七):“硅谷市长”罗伯特•诺伊斯开启的产业法则

脑极体

一次线上JVM调优实践,FullGC40次/天到10天一次的优化过程

AI乔治

Java 编程 架构 JVM GC

算法图解:如何找出栈中的最小值?

王磊

Java 数据结构 算法

代表Java未来的ZGC深度剖析,牛逼!

AI乔治

Java 架构 ZGC JVM GC调优

架构师训练营第四周学习笔记

一马行千里

学习 极客大学架构师训练营

阿里大牛精心整理了46张PPT,教你弄懂JVM、GC算法和性能调优

Java架构之路

Java 程序员 面试 编程语言 JVM

怎么才算掌握了JDK中的线程池

AI乔治

Java 编程 架构 jdk 线程池

异步excel导出组件设计和实现

Wayne Chu

Java 微服务 EasyExcel SpringCloud 服务治理

一周信创舆情观察(9.28~10.11)

统小信uos

年轻代频繁ParNew GC,导致http服务rt飙高

AI乔治

Java 学习 架构 JVM GC

如何优雅的搞垮服务器,再优雅的救活

MySQL从删库到跑路

Linux 升级glibc 启动异常 无法进入系统 抢救模式

使用Spring Boot创建docker image

程序那些事

Docker spring Spring Boot Spring Boot 2

Pulsar 社区周报|09-19 ~ 09-25

Apache Pulsar

大数据 开源 Apache Pulsar 消息中间件

Apache Pulsar 社区周报:09-26 ~ 10-09

Apache Pulsar

大数据 开源 云原生 Apache Pulsar 消息中间件

架构师训练营第 1 期第四周课后练习题

Leo乐

极客大学架构师训练营

为什么学习总是停在开头两页?

Nydia

程序员黄金年龄25-28岁,我们30+的人该去哪儿?附华为案例;

Java架构师迁哥

重大事故!IO问题引发线上20台机器同时崩溃

AI乔治

Java 架构 多线程 io 并发

Java-技术专题-JDK8-HashMap的实现原理

码界西柚

架构师训练营第四周命题作业

一马行千里

极客大学架构师训练营 命题作业

如何花“一点点小钱”突破华为云CCE服务的“防线”

华为云开发者联盟

容器 k8s

图解面试题-二叉树的所有路径

9527

Java 面试 算法 LeetCode 二叉树

Precog:大数据分析即服务_DevOps & 平台工程_Abel Avram_InfoQ精选文章