写点什么

基于 Elasticsearch 创建企业 AI 搜索应用实践 |QCon 北京

  • 2025-03-23
    北京
  • 本文字数:1458 字

    阅读完需:约 5 分钟

基于 Elasticsearch 创建企业 AI 搜索应用实践 |QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


Elastic 中国社区首席布道师刘晓国已确认出席并发表题为《基于 Elasticsearch 创建企业 AI 搜索应用实践》的主题分享。传统的词汇搜索不能满足当今时代的需求,特别是在这个智能的时代。当代企业针对搜索提出语义搜索,也就是根据文字的语义来进行搜索,而不是简单的词汇匹配。另外,我们也需要针对其它的数据类型,比如图片,语音及视频来进行搜索。


Elasticsearch 自 8.0 开始提供向量搜索(密集向量,稀疏向量)。它可以完美地解决文字语义搜索及多媒体数据的搜索。此外,向量搜索也并非完美,特别是针对文字搜索。我们可以使用混合搜索(词汇搜索,向量搜索)进行多路召回并对最终结果进行排名,这种方法可以提高搜索的精度及召回率。在人工智能发展的今天,结合大模型,使用 GenAI 可以让我们得到唯一的搜索答案,而不是传统的搜索引擎提供的多页面的搜索结果。由于企业数据或私有数据在每时每刻都在生成。大模型在缺乏上下文的情况下使用大模型来进行推理,在很多的时候会产生幻觉,因为这些知识不存在于大模型中。结合 Elasticsearch 的向量搜索技术针对企业数据或私有数据进行搜索,把搜索结果作为上下文提供给大模型,从而消除幻觉。这种技术也被称作为 RAG(检索增强生成)。本次演讲将详细介绍 Elasticsearch 的向量搜索技术及如何使用它进行 RAG 的应用开发。


刘晓国是新加坡国立大学硕士,西北工业大学本硕。曾就职于新加坡科技,康柏电脑,通用汽车,爱立信,诺基亚,Linaro 非营利组织 (Linux for ARM),Ubuntu,Vantiq 等企业。从事过嵌入式软件开发,电脑设计,手机软件设计,汽车电子,计算机操作系统,通信,云实时事件处理等行业。他在本次会议的详细演讲内容如下:


演讲提纲

1. 智能时代的搜索需求

  • 对语义搜索的需求,而不是简单的词汇匹配

  • 对多媒体数据的搜索,比如图片,声音及视频

  • 非结构化数据的搜索

  • 向量搜索带来的新的解决方案

2. Elasticsearch 向量搜索

  • 向量搜索原理

  • 向量搜索种类(密集向量,稀疏向量)

  • 混合搜索介绍(多路召回,综合评分)

3. RAG 实现

  • 如何使得大模型变得更聪明

  • RAG 的实现方法

4. Elasticsearch 在向量搜索上的最新进展

  • 硬件加速

  • 并行化

  • 标量量化

  • 搜索效率

  • 重新排名

  • Semantic text 字段

  • 推理 API

  • AI 生态

5. 使用 Elasticsearch 在企业搜索中的案例分享

  • 高级 RAG 案例分享


您认为,这样的技术在实践过程中有哪些痛点?

向量搜索需要大量的内存及计算能力,如果针对超大规模的数据进行向量搜索,存在成本上考虑。有时搜索的结果缺乏可解释性。如何结合传统的词汇搜索来实现更加精准的搜索的结果。如何使用大语言模型/人工智能来提高最终的搜索结果排名。在使用 GenAI 时,如何针对私有或者企业数据来规避幻觉。


演讲亮点

  • 使用 Elasticsearch 来针对企业进行大规模的商用、规避搜索幻觉

  • 结合大模型,使用混合搜索来得到更加精准的搜索结果


听众收益

  • 了解如何运行 Elasticsearch 来进行语义搜索

  • 了解如何结合大模型,针对企业数据进行 GenAI 搜索


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-23 09:034477

评论

发布
暂无评论

TiDB 查询优化及调优系列(三)慢查询诊断监控及排查

TiDB 社区干货传送门

基于tidbV6.0探索索引优化思路

TiDB 社区干货传送门

实践案例 6.x 实践

TiDB Sysbench 性能对比测试报告 - v5.1.4 对比 v6.0.0 DMR

TiDB 社区干货传送门

6.x 实践

TiDB与MySQL的模糊查询大小写

TiDB 社区干货传送门

开发语言

TiSpark v2.4.x 升级到 TiSpark v2.5.x

TiDB 社区干货传送门

实践案例 6.x 实践

TiDB HTAP特性的应用场景简析

TiDB 社区干货传送门

数据库架构设计

TiCDC系列分享 Open API与业务系统集成

TiDB 社区干货传送门

应用适配 6.x 实践

一次断电故障引起TiDB无法启动的问题带来的几点思考

TiDB 社区干货传送门

管理与运维 故障排查/诊断

TiDB中如何查看database级别的QPS

TiDB 社区干货传送门

监控

这一年,我和 TiDB 的故事

TiDB 社区干货传送门

基于tidbV6.0探索tiflash在多标签组合场景下的使用

TiDB 社区干货传送门

实践案例 6.x 实践

tiflash 6.0 on K8s 扩容与新特性实践

TiDB 社区干货传送门

版本测评 安装 & 部署 新版本/特性解读 扩/缩容 6.x 实践

TiFlash 源码阅读(二)计算层概览

TiDB 社区干货传送门

文件数据导入到TiDB的实践

TiDB 社区干货传送门

TiDB多活方案

TiDB 社区干货传送门

实践案例 集群管理 数据库架构选型 数据库架构设计

离线安装 TiSpark v2.5.1

TiDB 社区干货传送门

6.x 实践

TiDB 6.0 Book Rush | TiDB 和 Python 的 CRUD 应用开发实践

TiDB 社区干货传送门

6.x 实践

TiCDC系列分享-02-剖析同步模型与基本架构

TiDB 社区干货传送门

迁移 备份 & 恢复 大数据场景实践 实时数仓场景实践 数据中台场景实践

TiKV 节点重启后业务恢复速度(leader 平衡速度)v6.0 vs v5.1.2对比测试

TiDB 社区干货传送门

版本测评 6.x 实践

TiDB 6.0: 统计信息优化改进

TiDB 社区干货传送门

管理与运维 新版本/特性解读 6.x 实践

我和 TiDB 的故事 - 2020~2022

TiDB 社区干货传送门

MySQL正常执行的SQL在TiDB中变慢了

TiDB 社区干货传送门

管理与运维 故障排查/诊断

TiDB 6.0: 让 TSO 更高效

TiDB 社区干货传送门

实践案例 性能测评 新版本/特性解读 6.x 实践

TiDB库表设计和使用规范

TiDB 社区干货传送门

管理与运维

TiDB v5.4.0 与 v6.0.0 的 sysbench 性能对比

TiDB 社区干货传送门

性能测评 6.x 实践

基于 TiDB v6.0 部署两地三中心

TiDB 社区干货传送门

实践案例 6.x 实践

一次SSD磁盘寿命耗尽导致的TiDB集群写入变慢问题处理

TiDB 社区干货传送门

故障排查/诊断

TiDB 和 C# 的简单 CRUD 应用程序

TiDB 社区干货传送门

6.x 实践

TiDB 查询优化及调优系列(四)查询执行计划的调整及优化原理

TiDB 社区干货传送门

TiDB Lightning在数据迁移中的应用与错误处理实践

TiDB 社区干货传送门

迁移 管理与运维 6.x 实践

6.0体验:TiKV 重启后 Leader 均衡加速

TiDB 社区干货传送门

管理与运维 新版本/特性解读 6.x 实践

基于 Elasticsearch 创建企业 AI 搜索应用实践 |QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章