写点什么

Lucid Imagination 发布了 Apache Lucene 性能监测工具

  • 2009-09-11
  • 本文字数:1409 字

    阅读完需:约 5 分钟

Lucid Imagination 是一家采用 Apache Lucene 和 Solr 搜索引擎类库从事相关开发的商业公司,其引入了一个新的名叫 LucidGaze 的监测工具。该产品给开发者提供了一个针对 Lucene 的完整版本的性能监测工具。性能数据可以打印在日志文件中、存储在轮询数据库中、或者通过 Java API 来使用。如果使用了轮询数据库,则可以采用 RRD4j 类库提供的一个标准 Swing 应用程序来读取或处理该数据库。

该软件是以.jar 文件提供的,用来替代 Lucene 的.jar 文件,因此安装非常简单。开发者只需在其应用的 classpath 中将 lucene-core.2.4.1.jar 替换成 lucene-core-gaze.2.4.1.jar 即可。这样,开发者无需对其源码做出任何改变。而对于那些无法获得应用程序源代码的情况,该产品也能派上用场。

LucidGaze 给开发者提供了一系列分析方法,以观察搜索转换为文档检索操作的状况,索引分析分解用户输入处理的效果,以及文本处理和索引构建的过程。该工具使用 5 个不同的监视器来搜集统计数据:

  1. 分析统计数据:Analyzer、TokenFilter、TokenStream 和 Tokenizer 的相关数据,以及哪一个 Analyzer 被用来为特定域产生 TokenStream。
  2. 文档统计数据:已建索引文档的总数、以及索引的各个域。
  3. 索引统计数据: IndexReader 和 IndexWriter 的活动和行为,比如查看每个实例、跟踪其每个相关方法的调用、查看缓存及内存使用情况、以及索引增加和提交的平均时间。
  4. 搜索统计数据:查询操作、搜索器性能和处理时间、方法调用统计、以及对大多常用执行的查询。
  5. 存储统计数据: Lucene 存储架构的目录实例(directory instance)。

运行所有监视器的开销相当大。在与 Lucid Imagination 技术团队成员之一 Grant Ingersoll 的交谈过程中,我们得知这一范围大概在 10-15%。但是通过配置需要收集哪些统计数据以及这些数据是否需要被持久化,可以减少这一开销。

InfoQ 还与 Ingersoll 谈到了 LucidGaze 的一些典型应用。他所强调的第一种应用就是用其发现普通开发者使用 Lucene 时的常犯错误:没有关闭 IndexReader 而导致的内存泄漏。LucidGaze 搜集当前打开的 Indexeader 数量,IndexReader#reopen() 的调用次数以及其中哪一次调用是在 IndexReader 的新实例里,除此之外还有 JVM 中正在用的所有 IndexReader 所消耗的 RAM 总数。在捕捉因没有关闭 reader 而引起的内存泄漏时这些统计数据很有用处——如果你认为使用了两个 IndexReader 而内存中却有 10 个,那基本上可以肯定有地方泄漏了。第二个常见情况是在海量数据(创建和删除大量文档)站点的大量数据测试期间查看重建索引策略。Lucene 的索引数据库是由几个独立的“段(segment)”组成,每个都存储在一个独立的文件中。当你给索引增加一个文档时,可能会产生新的段。你可以压缩数据库以减少段的数量,从而加速查询,但是这样做是有开销的,而且计算出最佳策略需要大量的反复运算。LucidGaze 所提供的新创建索引段的数量、段合并的数量以及其发生的平均时间,可以帮助开发者调优其实现。该工具还可以用来查看在大量数据测试期间遇到的特定问题——分理出长时间运行的消耗过量资源的查询,或者精确定位导致处理瓶颈的域或文档。

尽管没有开源,但该产品是免费提供的,可以从 Lucid Imagination 的 Web 站点上下载。目前该软件只支持Lucene 2.4.1,但Lucid Imagination 表示如果需求量大,他们可能会提供对其它版本的支持。

查看英文原文: Lucid Imagination Releases Performance Monitoring Utility for Apache Lucene

2009-09-11 08:592973
用户头像

发布了 150 篇内容, 共 51.6 次阅读, 收获喜欢 10 次。

关注

评论

发布
暂无评论
发现更多内容

华为AppCube入选Forrester《中国低代码平台市场分析报告》

华为云开发者联盟

华为 低代码 AppCube 应用魔方 Forrester

前端开发框架react 之UmiJS

@零度

大前端 React

Apache ShenYu源码阅读系列-注册中心实现原理之Http注册

子夜2104

Hadoop完全分布式安装部署

编程江湖

大数据 hadoop

Redis 很强,不懂使用规范就糟蹋了

码哥字节

redis Redis开发规范 签约计划第二季

【分布式技术专题】「OSS中间件系列」Minio的Server端服务的架构和实战搭建

码界西柚

OSS Minio Minio 集群 12月日更 FS

少儿春晚表演

Tiger

28天写作

入驻快讯|欢迎字节跳动终端技术团队正式入驻 InfoQ 写作平台!

InfoQ写作社区官方

入驻快讯

「Oracle」Oracle 数据库备份还原

恒生LIGHT云社区

数据库 oracle

java开发SSM框架整合之MyBatis动态SQL

@零度

mybatis ssm JAVA开发

Redis 核心知识点归纳总结,从根上理解 Redis

码哥字节

redis Redis 核心技术与实战 签约计划第二季

服务端质量保证体系(一) 全流程规范管理

homber

服务端 流程 质量保证 签约计划第二季

服务端质量保证体系(三) CI原子能力建设

homber

ci 服务端 质量保证 签约计划第二季

基于HTML、CSS和JS的年龄计算器

海拥(haiyong.site)

html 大前端 28天写作 签约计划第二季 12月日更

云原生时代的"应用级"多云管理

北京好雨科技有限公司

云计算 Kubernetes 容器 多云管理

大数据开发之数据读取—Pandas vs Spark

@零度

大数据 spark pandas

换个角度思考勒索攻击事件

华为云开发者联盟

漏洞 勒索 攻击 安全检测 蜜罐检测

QA进阶成长感悟录

homber

成长 内容合集 签约计划第二季

Go语言学习查缺补漏ing Day3

恒生LIGHT云社区

Go 编程语言

企业如何做好员工安全意识提升

腾讯安全云鼎实验室

图数据和知识图谱,数字化转型的新引擎

星环科技

图数据库 知识图谱

TDengine在雷达台站运维管理系统中的落地实践

TDengine

数据库 tdengine 时序数据库

恒源云(GPUSHARE)_云GPU服务器如何使用PyCharm?

恒源云

深度学习 gpu 算力加速

开源机器学习数据库OpenMLDB贡献者计划全面启动

第四范式开发者社区

第四范式 开源社区 OpenMLDB 机器学习数据库 贡献者

服务端质量保证体系(二) 流水线标准化建设

homber

服务端 CI/CD 流程 质量保证 签约计划第二季

Linux一学就会之Centos8软件包的管理和安装之yum管理软件包

学神来啦

Linux centos 运维 rpm yum

python入门难?十之八九是因为python 协程吧!

梦想橡皮擦

12月日更

Redis 分布式锁的正确实现原理演化历程与 Redisson 实战总结

码哥字节

redis RedLock redisson 分布式锁 签约计划第二季

编程谜题:提升你解决问题的训练场

华为云开发者联盟

Python 编程 编程语言 代码 编程谜题

2021 China DevOpsDays演讲实录

homber

DevOps DevOpsDays 签约计划第二季

星环科技 TDH8.1.0:全新升级为用户带来极致体验

星环科技

大数据

Lucid Imagination发布了Apache Lucene性能监测工具_Java_Charles Humble_InfoQ精选文章