写点什么

Lucid Imagination 发布了 Apache Lucene 性能监测工具

  • 2009-09-11
  • 本文字数:1409 字

    阅读完需:约 5 分钟

Lucid Imagination 是一家采用 Apache Lucene 和 Solr 搜索引擎类库从事相关开发的商业公司,其引入了一个新的名叫 LucidGaze 的监测工具。该产品给开发者提供了一个针对 Lucene 的完整版本的性能监测工具。性能数据可以打印在日志文件中、存储在轮询数据库中、或者通过 Java API 来使用。如果使用了轮询数据库,则可以采用 RRD4j 类库提供的一个标准 Swing 应用程序来读取或处理该数据库。

该软件是以.jar 文件提供的,用来替代 Lucene 的.jar 文件,因此安装非常简单。开发者只需在其应用的 classpath 中将 lucene-core.2.4.1.jar 替换成 lucene-core-gaze.2.4.1.jar 即可。这样,开发者无需对其源码做出任何改变。而对于那些无法获得应用程序源代码的情况,该产品也能派上用场。

LucidGaze 给开发者提供了一系列分析方法,以观察搜索转换为文档检索操作的状况,索引分析分解用户输入处理的效果,以及文本处理和索引构建的过程。该工具使用 5 个不同的监视器来搜集统计数据:

  1. 分析统计数据:Analyzer、TokenFilter、TokenStream 和 Tokenizer 的相关数据,以及哪一个 Analyzer 被用来为特定域产生 TokenStream。
  2. 文档统计数据:已建索引文档的总数、以及索引的各个域。
  3. 索引统计数据: IndexReader 和 IndexWriter 的活动和行为,比如查看每个实例、跟踪其每个相关方法的调用、查看缓存及内存使用情况、以及索引增加和提交的平均时间。
  4. 搜索统计数据:查询操作、搜索器性能和处理时间、方法调用统计、以及对大多常用执行的查询。
  5. 存储统计数据: Lucene 存储架构的目录实例(directory instance)。

运行所有监视器的开销相当大。在与 Lucid Imagination 技术团队成员之一 Grant Ingersoll 的交谈过程中,我们得知这一范围大概在 10-15%。但是通过配置需要收集哪些统计数据以及这些数据是否需要被持久化,可以减少这一开销。

InfoQ 还与 Ingersoll 谈到了 LucidGaze 的一些典型应用。他所强调的第一种应用就是用其发现普通开发者使用 Lucene 时的常犯错误:没有关闭 IndexReader 而导致的内存泄漏。LucidGaze 搜集当前打开的 Indexeader 数量,IndexReader#reopen() 的调用次数以及其中哪一次调用是在 IndexReader 的新实例里,除此之外还有 JVM 中正在用的所有 IndexReader 所消耗的 RAM 总数。在捕捉因没有关闭 reader 而引起的内存泄漏时这些统计数据很有用处——如果你认为使用了两个 IndexReader 而内存中却有 10 个,那基本上可以肯定有地方泄漏了。第二个常见情况是在海量数据(创建和删除大量文档)站点的大量数据测试期间查看重建索引策略。Lucene 的索引数据库是由几个独立的“段(segment)”组成,每个都存储在一个独立的文件中。当你给索引增加一个文档时,可能会产生新的段。你可以压缩数据库以减少段的数量,从而加速查询,但是这样做是有开销的,而且计算出最佳策略需要大量的反复运算。LucidGaze 所提供的新创建索引段的数量、段合并的数量以及其发生的平均时间,可以帮助开发者调优其实现。该工具还可以用来查看在大量数据测试期间遇到的特定问题——分理出长时间运行的消耗过量资源的查询,或者精确定位导致处理瓶颈的域或文档。

尽管没有开源,但该产品是免费提供的,可以从 Lucid Imagination 的 Web 站点上下载。目前该软件只支持Lucene 2.4.1,但Lucid Imagination 表示如果需求量大,他们可能会提供对其它版本的支持。

查看英文原文: Lucid Imagination Releases Performance Monitoring Utility for Apache Lucene

2009-09-11 08:593034
用户头像

发布了 150 篇内容, 共 52.7 次阅读, 收获喜欢 10 次。

关注

评论

发布
暂无评论
发现更多内容

人脸面部表情识别的原理及其应用

数据堂

羽山数据SaaS平台新增供应商API自动上架功能

羽山数据

自动 自主研发 上架

小米基于 Flink 的实时数仓建设实践

Apache Flink

大数据 flink 实时计算

火山引擎边缘云,助力泛娱乐产业数字化转型升级

火山引擎边缘云

Qcon 云产品 火山引擎边缘云

全国信安标委“标准周”在昆明召开,腾讯安全受邀分享标准实践经验

说山水

天翼云胡志强:依靠科技创新驱动高质量发展之路

说山水

浅谈EOS区块链性能测试

BSN研习社

又双叒叕种草了新家装风格?AI帮你家居换装

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

软件测试/测试开发丨Pytest参数化用例学习笔记

测试人

程序员 软件测试 自动化测试 测试开发 pytest

屏幕调节亮度:Lunar pro 最新激活版下载

真大的脸盆

Mac Mac 软件 屏幕亮度调节

「焱融科技」获中关村国际前沿科技创新大赛·大数据与云计算领域 TOP10

焱融科技

高性能 #文件存储 #分布式存储

推进产业发展健全服务体系,中国信通院数字员工评测工作正式启动

王吉伟频道

RPA 机器人流程自动化 信通院 数字员工 数字员工评测

GreptimeDB 设计原则 — 云原生时序数据库,解决海量数据管理挑战

Greptime 格睿科技

数据库 分布式数据库 时序数据库 云原生数据库

海汽集团:业财共享服务中心建设推进集团数字治理

用友BIP

财务共享

巨梦征文 | 2023年第一期征文大赛| 报名请评论本文章

巨梦科技

分享几个索引创建的小 Tips

江南一点雨

MySQL

可持续发展的企业数智化底座究竟是什么样的?

用友BIP

白皮书 数智底座 数智平台 数智平台白皮书

官宣!Databend 和 XSKY星辰天合达成合作

Databend

又裁员25%?!金三银四好像消失了

引迈信息

程序员 面试 低代码 金三银四

多层网关已成过去,网关多合一成潮流,网关改造正当时丨Higress 正式发布 1.0 版本

阿里巴巴云原生

阿里云 云原生 网关 Higress

MobTech MobPush|统一推送联盟烂尾,统一推送还能实现吗

MobTech袤博科技

软件测试/测试开发丨Pytest测试框架学习笔记

测试人

程序员 软件测试 pytest

数字赋农:数字农业新时代,致富之路宽又阔!

加入高科技仿生人

低代码 智慧农业 数字赋能 科技兴农

人脸识别图像技术的发展与挑战

数据堂

LeetCode:2665. 计数器 II,闭包详解

Lee Chen

LeetCode

5月《中国数据库行业分析报告》正式发布,首发时序、实时数据库两大【全球产业图谱】

墨天轮

数据库 tdengine 时序数据库 国产数据库 实时数据库

数据结构校验得心应手:Apifox 最佳实践

Liam

程序员 开发 Apifox API 接口工具

Spring Boot 启动注解分析

江南一点雨

Java spring springboot

通过FP&A实践,释放企业深度价值

智达方通

全面预算管理 财务规划和分析 FP&A

Amazon CodeWhisperer 初体验

Coder9527

执行计划缓存,Prepared Statement性能跃升的秘密

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

Lucid Imagination发布了Apache Lucene性能监测工具_Java_Charles Humble_InfoQ精选文章