AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

Lucene 2.9:数字字段支持、新分析器及性能优化

  • 2009-09-27
  • 本文字数:583 字

    阅读完需:约 2 分钟

Apache Lucene 项目是一个完全用 Java 编写的高性能、全功能的文本搜索引擎库,最近它发布了 2.9 版。此次发布在 2.4.1 版的基础上进行了许多增强:

  • 单个 Segment 的查询及缓存,这使 reopen 操作的速度显著提高。
  • 为 IndexWriter 增加了接近实时的搜索功能。
  • 新的 Query 类型。
  • 更智能,伸缩性更强的多词(multi-term)查询(如 Wildcard,Range 等等)。
  • 最新优化过的 Collector/Scorer API。
  • 新增的 Unicode 支持及字符集(Collation)。
  • 基于 Attribute 的 TokenStream 新 API。
  • 在 contrib 中提供了新的 QueryParser 框架,并替换了核心实现。
  • 在基于字段搜索,或使用自定义的 Collector 的时候可取消 Score 功能,这样可以获得显著的性能提高。
  • 新的分析器(PesianAnalyzer,ArabicAnalyzer 即 SmartChineseAnalyzer)。
  • 为大型文本新增快速向量高亮工具(fast-vector-highlighter)。
  • 对数字字段提供了高性能的查询支持。这些字段使用前缀树的结构进行索引,能直接支持简单而高效的数字范围查询,而不需要在外部对数字进行处理。

虽然 Lucene 团队打算在小版本的更新上做到完整的兼容,但是 Lucene 2.9 在不少方面破坏了这一点,详细信息可参考 Changes 文档中“向前兼容策略的改变(Changes in backwards compatibilit policy)”一节。Lucene 团队建议不要直接替换生产环境下的二进制包,而是在部署前重新编译应用程序,以便在出现兼容问题时获得提示并进行修补。

2009-09-27 04:252952
用户头像

发布了 157 篇内容, 共 59.5 次阅读, 收获喜欢 6 次。

关注

评论

发布
暂无评论
发现更多内容

从通信延伸到全行业,亚信科技AntDB 7.0蓄势待发

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

大模型轻量化实践路径

澜舟孟子开源社区

人工智能 自然语言处理 神经网络 深度学习 预训练模型

上海移动基于亚信科技AntDB完成核心账务数据库的国产化替换

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

TiCDC迁移-TiDB到MySQL测试

TiDB 社区干货传送门

管理与运维

容器化 | 在 Rancher 中部署 MySQL 集群

RadonDB

MySQL 开源 容器化 rancher RadonDB

即时通讯-改变社交与工作状态的新型软件

BeeWorks

不会多线程还想进BAT?精选19道多线程面试题,有答案边看边学

程序知音

Java 多线程 面试题 后端技术 BAT面试题

今天拿SpringAOP和自定义注解的通用性开🔪

知识浅谈

切面编程 7月月更

一文读懂Elephant Swap,为何为ePLATO带来如此高的溢价?

西柚子

金九银十喜提offer!秋招蚂蚁金服Java研发岗四面

程序员啊叶

Java 编程 程序员 架构 java面试

新四化时代来袭,亚马逊云科技赋能汽车行业加速创新

Lily

【7.22-7.29】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

数据中台建设(四):企业构建数据中台评估

Lansonli

大数据 数据中台 7月月更

手摸手实现Canal如何接入MySQL实现数据写操作监听

知识浅谈

MySQ 7月月更

APP为什么用JSON协议与服务端交互:序列化相关知识

程序员啊叶

Java 编程 程序员 架构 java面试

StarRocks 2.3 新版本特性介绍

StarRocks

面试?进大厂?还得靠这份Java面试指导手册

王小凡

Java 面试 JVM Java多线程 秋招

兆骑科创海外高层次人才引进平台,企业项目对接,赛事活动路演

兆骑科创凤阁

关于数字化转型 你需要知道的八项指导原则

BeeWorks

【堡垒机小知识】硬件堡垒机是什么意思?其与云堡垒机有什么区别?

行云管家

云计算 网络安全 数据安全 堡垒机 云堡垒机

官宣,又一上市公司杀入数据库市场

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

数字孪生万物可视 |联接现实世界与数字空间

华为云开发者联盟

云计算 大数据 后端 智慧城市 数字孪生

你真的了解Redis的持久化机制吗?

C++后台开发

数据库 redis 后端开发 C/C++后台开发 C/C++开发

基于Flink CDC打通数据实时入湖

数据社

签约计划第三季

文档贡献与写作必读-OpenHarmony开发者文档风格指南

OpenHarmony开发者

Open Harmony

SQL 开始日期、结束日期查询

孙永潮

Rust P2P网络应用实战-1 P2P网络核心概念及Ping程序

李明

rust 网络 Libp2p

兆骑科创赛事活动承办,项目路演,人才引进平台

兆骑科创凤阁

深圳见!云原生加速应用构建专场:来看云原生 FinOps、SRE、高性能计算场景最佳实践

阿里巴巴云原生

阿里云 云原生 峰会

Google Cloud X Kyligence|如何从业务视角管理数据湖?

Kyligence

数据湖 智能多维数据库

突破性能天花板!亚信数据库支撑 10 多亿用户,峰值每秒百万交易

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

Lucene 2.9:数字字段支持、新分析器及性能优化_Java_赵劼_InfoQ精选文章