【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

Lucene 2.9:数字字段支持、新分析器及性能优化

  • 2009-09-27
  • 本文字数:583 字

    阅读完需:约 2 分钟

Apache Lucene 项目是一个完全用 Java 编写的高性能、全功能的文本搜索引擎库,最近它发布了 2.9 版。此次发布在 2.4.1 版的基础上进行了许多增强:

  • 单个 Segment 的查询及缓存,这使 reopen 操作的速度显著提高。
  • 为 IndexWriter 增加了接近实时的搜索功能。
  • 新的 Query 类型。
  • 更智能,伸缩性更强的多词(multi-term)查询(如 Wildcard,Range 等等)。
  • 最新优化过的 Collector/Scorer API。
  • 新增的 Unicode 支持及字符集(Collation)。
  • 基于 Attribute 的 TokenStream 新 API。
  • 在 contrib 中提供了新的 QueryParser 框架,并替换了核心实现。
  • 在基于字段搜索,或使用自定义的 Collector 的时候可取消 Score 功能,这样可以获得显著的性能提高。
  • 新的分析器(PesianAnalyzer,ArabicAnalyzer 即 SmartChineseAnalyzer)。
  • 为大型文本新增快速向量高亮工具(fast-vector-highlighter)。
  • 对数字字段提供了高性能的查询支持。这些字段使用前缀树的结构进行索引,能直接支持简单而高效的数字范围查询,而不需要在外部对数字进行处理。

虽然 Lucene 团队打算在小版本的更新上做到完整的兼容,但是 Lucene 2.9 在不少方面破坏了这一点,详细信息可参考 Changes 文档中“向前兼容策略的改变(Changes in backwards compatibilit policy)”一节。Lucene 团队建议不要直接替换生产环境下的二进制包,而是在部署前重新编译应用程序,以便在出现兼容问题时获得提示并进行修补。

2009-09-27 04:252593
用户头像

发布了 157 篇内容, 共 52.3 次阅读, 收获喜欢 6 次。

关注

评论

发布
暂无评论
发现更多内容

Java程序员必备,Github上星标55.9k的微服务神级笔记简直太香了,学完感觉自己又行了!

Java架构之路

Java 程序员 架构 面试 编程语言

当人脸识别对准执法者,AI的应用边界博弈

脑极体

阿里云视频云实时字幕技术,助力英雄联盟S10全球总决赛

阿里云视频云

游戏开发 直播 语音识别 字幕

涨薪神作!华为内部操作系统与网络协议笔记爆火,Java程序员有福了

Java架构之路

Java 程序员 面试 编程语言

甲方日常 47

句子

工作 随笔杂谈 日常

【算法题目解析】杨氏矩阵数字查找

程序员架构进阶

算法 二分查找 杨氏矩阵

可以解除程序员中年危机的职业规划

Java架构师迁哥

cglib入门后篇

Rayjun

Java cglib

靠脑机接口“隔空探物”,大脑植入芯片可实现“心灵感应”

脑极体

Rethink:多版本文件的命名细节

小匚

团队 随笔杂谈

当代开发者的六大真实现状,你被哪一个场景“戳中”了?

华为云开发者联盟

开发者 调研 报告

Spring bean 加载顺序导致的 bug 问题

AI乔治

Java 架构 Spring Boot

简要分析近几年商业软件开发平台的现状

Philips

敏捷开发 快速开发 企业应用

从一场“众盟科技云滇之播”,我们发现了美食直播的商业与公益价值

人称T客

从零到千万用户,我是如何一步步优化MySQL数据库的?

冰河

数据库 架构 性能优化 分布式数据库 分布式存储

数字人民币都来了 黄金还有什么用?

CECBC

数字货币

区块链产业,怎样“链”住未来?

CECBC

区块链

「Java并发编程」从源码分析几道必问线程池的面试题?

Java架构师迁哥

JVM真香系列:轻松掌握JVM运行时数据区

田维常

JVM

云计算简史(完整版)

明道云

5G为数字化转型插上翅膀

CECBC

5G网络安全

架构师训练营第 1 期第 8 周学习总结

好吃不贵

极客大学架构师训练营

Docker

深度解析ThreadLocal原理

AI乔治

Java 架构 线程 ThreadLocal

Pulsar Summit Asia 2020 中文专场议题出炉!

Apache Pulsar

大数据 开源 Apache Pulsar

《迅雷链精品课》第二课:区块链核心技术框架

迅雷链

区块链

LeetCode题解:剑指 Offer 22. 链表中倒数第k个节点,使用数组,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

【T1543.003】利用 ACL 隐藏恶意 Windows 服务

比伯

Java 大数据 编程 架构 计算机

O'Reilly出版社又一经典之作——Python设计模式

计算机与AI

Python

记不住Spring中Scheduled中的Cron语法?让我们看看源码吧

AI乔治

Java spring 编程 架构

甲方日常 48

句子

工作 随笔杂谈 日常

Lucene 2.9:数字字段支持、新分析器及性能优化_Java_赵劼_InfoQ精选文章