企业级 Ruby 开发曙光:开源 ActiveWarehouse 插件发布

阅读数:131 2007 年 3 月 28 日

话题:RubyRuby on Rails语言 & 开发架构

在整个软件开发社区里,对 Ruby 和 Rails 的赞扬声从没有间断过,除了它是否能够适应企业开发的需要。比如,Rails 是否能处理海量的业务数据?通过ActiveWarehouse的最新发布,开源方面的 Rails 程序员Anthony Eden向社区奉献了解决此问题的插件,使得使用 Ruby on Rails 构建数据仓库变得轻而易举。现在,ActiveWarehouse 已经是最活跃的 RubyForge 项目之一,有关它新特性的发布路线图看上去也是那么吸引人:

ActiveWarehouse 插件能简化在 Rails 里开发数据仓库应用。数据仓库是一个相比于运行事务处理而言,为满足分析需要而专门设计的数据库。一个典型的数据仓库可以存储好几年的数据,从不同的运行数据中提取数据。数据仓库通常是高度非规范化的,这和倾向于规范化的交易系统恰好相反。

这个版本里有很多显著的功能:Fact 生成器、维度(Dimension)和立体(Cube);多维支持;集合(Aggregate)的自动生成和其他特性,未来还会包括更多。

要从多个数据源将数据提取到数据仓库,ActiveWarehouse 需要和ActiveWarehouse 转换和加载(ETL)组件配合使用:

ETL 可以处理大部分在整合现有系统(如 delimited、fixed-width、XML 和数据库源等)时要用到的基本数据源类型。通过定制的解析器它还可以被扩展。另外它还有足够多可用的转换,增加新的也很容易。这一系统具有良好的可扩展性。

现有的一些其他功能也很吸引人,如虚拟源字段;对预 / 后处理代码的支持;ETL 领域特定语言(DSL)控制文件等。但目前批量载入只对 MySQL 可用。Anthony 在性能问题上仍在努力,这对数据库领域而言是至关重要的。

你可以通过一个全面的概览来了解 ActiveWarehouse 和 ETL 组件的功能。