NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

支持大数据的 JasperSoft 4 发布了

  • 2011-02-18
  • 本文字数:1748 字

    阅读完需:约 6 分钟

近日, JasperSoft 宣布提供对大数据系统报表的支持,包括 Hadoop 、几种流行的 NoSQL 数据库以及 3 个 MPP 分析关系数据库上的各种模型报表。他们现在支持:

  • Hadoop——Jaspersoft 通过 Hive SQL 接口和 HBase 支持 Hadoop,通过 HDFS 读取文件,包括 Avro 文件格式。
  • NoSQL——Jaspersoft 对如下广泛使用的数据存储提供了 NoSQL 支持:键值存储、文档数据库、BigTable Clones、图形数据库以及 Data Grid Caching。Jaspersoft 的开源项目支持各种 NoSQL 技术报表,包括:Cassandra、MongoDB、Riak、HBase、CouchDB、Neo4J、Infinispan、VoltDB 以及 Redis。还有一个用于 VMware GemFire 的闭源连接器,目前处于 Beta 版。
  • MPP 分析数据库——Jaspersoft 支持 IBM 的 Netezza MPP 分析数据库数据仓库,不久还会提供商业的分析支持。此外还支持 Vertica 与 EMC Greenplum。

InfoQ 有幸采访到了 JasperSoft 技术联盟的资深总监 Andrew Lampitt 以详细了解此次发布。

问:此次发布与其他 BI 厂商所提供的产品有何不同?

答:JasperSoft 一直都支持晦涩的数据格式的报表。

现在,业界都在使用非常乏味的方法制作 Hadoop 上的报表,使用 Hive 对 Hadoop 执行 SQL 查询。JasperSoft 增加了对 HDFS 中的文件报表的支持,或是直接支持 HBase,也支持各种 NoSQL 风格。

问:你们做过性能基准测试么?

答:他们都是第一代或第二代的连接器,更不必说产品质量了。JasperSoft 与多家厂商保持着合作关系,项目所有者会制作出第一份报表。JasperSoft 已经通过潜在或现有客户了解到了诸多反馈信息。

问:这些连接器的使用或评测级别如何?

答:我们既让现有的客户使用,也让新客户使用,从他们那里能获得反馈信息。从某种程度上说,此次发布是为了引起人们的注意。

我们与客户和厂商紧密合作,从中了解到这些公司最渴求的报表需求。

问:此次发布包含哪些新功能?

答:JasperSoft 连接器提供了

  • 数据连通性——可以作为客户化数据源如 MongoDB 或 Riak 来连接
  • 客户化查询执行器——可以使用各种风格的系统(包括非 SQL、层次系统)所使用的查询语言 / 语法

JasperSoft 支持将文件加载到内存并在其中操作文件。

图形数据库(比如 Neo4J)中的节点分析与键值存储形式是大不相同的。

问:支持非传统格式中的摘要或 star schema 报表么?

答:我不太确定。关系系统的报表与数据仓库的差别非常大。

对于 MongoDB 或 Riak 来说,你可以在 GUI 层次上操纵数据,比如说摘要,但它并非传统的分析情况。

我们将 NoSQL 看作是 OLTP 的新选择。

如果我是个使用 Hadoop 的开发者,想要查看一些数据,那么就可以通过文件系统报表达成所愿。

问:何时在 Hadoop/HDFS 中查询文件,会将整个文件加载到内存中么?

答:是内存的限制么?没必要将全部数据加载到客户端浏览器中,但在服务器端(JasperReports 服务器)却总是加载全部内容。

问:有什么办法可以使用过滤器或是最小化文件数据集的大小?

答:一切皆有可能,但这并非我们现在想要解决的问题。这类似于本地的 CSV 文件。通常,你需要将全部文件加载到内存中。对文件进行过滤并不是一个好办法。

问:JasperSoft 对 HBase 报表的支持如何?

答:HBase 只是针对给定字段存储一系列字节而已。没有什么内建的手段可以获悉这些字节所代表的对象类型。在 POC 版本的连接器中,我们将一张传统的表转换成了 HBase。我们将表的主键作为 ROW_ID,将其他的列名作为 HBase 中的 FAMILY,将字段值转换为字节,并将其作为 VALUE。我们还使用 QUALIFIER 存放数据类型信息。这样,连接器就知道每个字段的数据类型是什么了。其他人也可以像我们一样将数据加载到 HBase 中(感兴趣的读者可以查看 HBase loader 的源代码了解详情)。

接下来要实现一个可插拔的反序列化引擎,将其插入到连接器中。这样,连接器就知道从给定字段中所取出的字节可以使用Java 序列化机制进行序列化,也可以使用Google 的Protocol Buffers 或是其他序列化方法。我们就可以“获悉”每个字段的数据类型了。基于这一点,使用JasperSoft iReport(桌面版的报表设计器)的开发者就可以轻松构建报表了。

我们还可以直接或是通过Thrift 间接连接到HBase。Thrift 是可选的,常与HBase 搭配使用。

感兴趣的读者还可以到项目的下载页面了解连接器的详细信息。

查看英文原文: JasperSoft 4 Released with Big Data Support

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2011-02-18 10:273405
用户头像

发布了 88 篇内容, 共 258.6 次阅读, 收获喜欢 8 次。

关注

评论

发布
暂无评论
发现更多内容

私有化部署是什么意思?企业私有化部署的几种类型和利弊分析

WorkPlus

一张图看懂全球最新DDoS攻击趋势

科技热闻

数字化转型-基本认知

Geek_XOXO

数字化转型

关于在hive任务中number of reducers的探讨

编程江湖

《中国金融科技与数字普惠金融发展报告(2022)》发布 十大趋势研判未来行业发展

WorkPlus

Flink CDC 2.2 正式发布,新增四种数据源,支持动态加表,提供增量快照框架

Apache Flink

大数据 flink 编程 流计算 实时计算

低代码实现探索(三十九)组件库的开发

零道云-混合式低代码平台

国产化浪潮下TiDB解决的痛点问题

TiDB 社区干货传送门

协同·转型·智慧,WorkPlus移动平台帮助企业走好数字化转型之路

WorkPlus

Linux内核权限提升漏洞

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

Apache Flink 在翼支付的实践应用

Apache Flink

大数据 flink 编程 流计算 实时计算

分布式事务揭秘

中原银行

分布式 分布式事务 云原生 中原银行

模块1 作业

KennyQ

Apache Shiro Realm实战及认证授权源码解读

编程江湖

区块链中的共识机制简介

中原银行

区块链 中原银行

下一代对话系统中的关键技术

硬科技星球

固定资产管理系统的主要功能和优点

低代码小观

低代码 企业管理 资产管理 企业管理系统 CRM系统

不后悔的星期四,明道云首次全网公开直播零代码训练营

明道云

一起来DIVE!在基础软件知识海洋遨游,还能赢取万元奖品!

InfoQ写作社区官方

热门活动 DIVE

优酷播放黑科技 | 自由视角技术的全链路策略与落地实践

阿里巴巴终端技术

客户端 音视频技术 视频技术

AI观点说-关于深度学习的一点思考

AIWeker

人工智能 深度学习

字节跳动基于 Apache Hudi 的多流拼接实践

字节跳动数据平台

字节跳动 实时数仓 Hudi

基于Prometheus的企业级监控体系探索与实践

中原银行

分布式 微服务 云原生 Prometheus 中原银行

《2021年IT行业项目管理调查报告》重磅发布!

禅道项目管理

项目管理 DevOps 加班

【征文大赛】TiDB 社区专栏第一届征文大赛,快来一次性集齐所有周边吧!

TiDB 社区干货传送门

浅谈外挂常识和如何防御

行者AI

一文简述:云端架构的演变过程

穿过生命散发芬芳

3月月更

从2018到2022: 一个大数据工程师眼中的TiDB

TiDB 社区干货传送门

将 AWS S3 数据迁移至 TiDB Cloud 集群

TiDB 社区干货传送门

阿里云智能编码插件,Cosy文档搜索上新了

阿里云云效

阿里云 代码管理 代码库 阿里云智能编码插件 Cosy

深度确定性策略梯度(DDPG)

行者AI

支持大数据的JasperSoft 4发布了_Java_Ron Bodkin_InfoQ精选文章