写点什么

网易有道自研 RAG 引擎 QAnything 升级:发布纯 python 版本,首次支持在 Mac 运行

  • 2024-04-12
    北京
  • 本文字数:1030 字

    阅读完需:约 3 分钟

大小:516.10K时长:02:56
网易有道自研RAG引擎QAnything升级:发布纯python版本,首次支持在Mac运行

4 月 8 日,有道知识库问答引擎 QAnything 更新至 1.3.0 版本,该版本带来了两大主要功能升级:发布纯 python 的轻量级的版本,该版本支持在 Mac 上运行,也可以在纯 CPU 机器上运行;同时支持 BM25 + embedding 混合检索,可以实现更精准的语义检索和关键字搜索。本次更新后,QAnything 能为开发者探索大模型落地提供更强大的技术支撑和更流畅的用户体验。

 

QAnything 系统架构图


QAnything 是网易有道自研的 RAG(Retrieval Augmented Generation) 引擎。该引擎允许用户上传 PDF、图片、Word、Excel、PowerPoint 等多种格式的文档,并实现类似于 ChatGPT 的互动问答功能,其中每个答案都能精确追溯到相应的文档段落来源。该引擎支持纯本地部署,上传文档数量无上限,问答准确率很高。


GitHub 地址:

https://github.com/netease-youdao/QAnything


自今年 1 月开源以来,QAnything 迅速吸引了开发者社区的广泛关注,并多次登上了 GitHub trending 榜单。截至目前,在 GitHub 上 QAnything 已经积累 7000+个星标,这反映出了用户对其价值的高度评价。


QAnything登上GitHub trending榜单


此外,QAnything 下载次数已达数万次。其中,语义嵌入排序模型 BCEmbedding 更是每月可达超 60 万次下载。


值得一提的是,QAnything 采用了自研的 BCEmbedding 模型(RAG 系统关键模块)。有道发现,在客服问答以及一些 toB 客户的场景中,OpenAI 的 Ada2 BCEmbedding 检索准确率只有 60%,而其自研的 BCEmbedding 检索准确率可以达到 95%。该模型具有中英双语跨语种能力和多领域覆盖两大特色。


据悉,QAnything 收集了包括教育、医疗、法律、金融、百科、科研论文、客服、通用 QA 等场景的语料,使得模型可以覆盖和支持尽可能多的应用场景,为商业化落地提供了便捷。


目前,QAnything 已在有道多场景中落地。如“有道领世”在 QAnything 的帮助下,凭借海量的升学资料数据,打造出一个“私人 AI 规划师”,能为每个家长和学生提供个性化的服务,展示更加全面、专业、及时的升学规划。面对高考政策、升学路径、学习生活以及职业规划等各类问题,该系统的解答准确率超过 95%。未来随着数据补充和更新,准确率会一直上涨。


与此同时,子曰教育大模型最新应用成果“有道速读”,其核心功能文档问答、文章摘要、要点解读、引文口碑和领域综述,背后驱动也是 QAnything。在其加持下,用户快速理解文档、定位要点等诉求得以快速实现,短短一分钟,万字长文就能拆解得明明白白。除赋能自身业务外,开源后的 QAnything 不断拓宽“朋友圈”。目前已累计为近百家企业赋能,以期让 AI 应用真正进入医疗、物流、办公等多元化场景,为企业、组织和个人带来生产效率的大幅提升。

2024-04-12 11:197987

评论

发布
暂无评论
发现更多内容

面试突击:说一下线程生命周期,以及转换过程?

CRMEB

剑指Offer——JVM 这些基础知识点你全掌握了吗

No Silver Bullet

JVM 垃圾回收 offer 2月月更

netty系列之:channelHandlerContext详解

程序那些事

Java Netty nio 程序那些事 2月月更

教你一个快速视频处理的神器:Python moviepy

华为云开发者联盟

Python 视频 音频 视频处理 Moviepy

千万级CPS的开源网络压测软件dperf

百度开发者中心

Python代码阅读(第75篇):阶乘

Felix

Python 编程 阅读代码 Python初学者 阶乘

学术论坛第七期:基于统计的预测算法

云智慧AIOps社区

统计学 预测模型

百年奥运的凌空之美,AI云智剪背后的新算法

阿里云CloudImagine

大咖说|《商业评论》主编颜杰华:如何看待未来商业的管理趋势?

大咖说

大咖说 财经 数智化 商业评论

网络安全kali渗透学习 web渗透入门 NMAP高级使用技巧和漏洞扫描

学神来啦

iLogtail——一款延迟仅在毫秒级的千万实例可观测采集器利器来了 | 龙蜥技术

OpenAnolis小助手

阿里云 开源 数据采集 技术分享

自我认为挺全面的【Web Service渗透测试总结】

H

网络安全 渗透测试

龙蜥下游发行版 Alibaba Cloud Linux 3 安全基线正式通过 CIS 认证,云上企业安全性保障更上层楼

OpenAnolis小助手

Linux 开源 cis

使用goby检测log4j漏洞

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

SQL注入如何预防?

喀拉峻

网络安全

编译ORB-SLAM 3 出现slots_reference错误

Ayosh

slam

一文带你使用 Python 实现Socket编程

宇宙之一粟

Python socket 2月月更

开源每周问答精选:PolarDB for PostgreSQL 是专门面向 OLAP 场景吗?

阿里云数据库开源

数据库 阿里云 开源 polarDB

政企机构用户注意!蠕虫病毒Prometei正在针对局域网横向渗透传播

火绒安全

局域网共享 渗透 蠕虫 病毒 政企

3步教你把个人应用服务部署到云服务器ECS上

阿里云弹性计算

Docker 征文投稿 玩转ECS

罗马建立在水渠上:为什么需要优先建设绿色光网?

脑极体

HTTP流量神器Goreplay核心源码详解

华为云开发者联盟

Go 流量 GOREPLAY TCP/HTTP

图计算 on nLive:Nebula 的图计算实践

NebulaGraph

图数据库 知识图谱 图计算 分布式图数据库

35款FL插件免费下载

懒得勤快

1分钟了解Prometheus的WAL机制

johncming

Prometheus WAL

WeOpen Good 开源公益计划正式启动!聚开源智慧·行科技向善

腾源会

开源 公益 腾源会

Flink on K8s 企业生产化实践|社区征文

张浩_house

flink 特征平台 新春征文

刷屏的“1620”有多难?3D+AI技术带你一秒看懂

百度开发者中心

Geospatial Data 在 Nebula Graph 中的实践

NebulaGraph

图数据库 知识图谱 分布式图数据库

腾讯音乐知识图谱搜索实践

NebulaGraph

图数据库 知识图谱 分布式图数据库

Web Components 系列(十一)—— 实现 MyCard 的可复用

编程三昧

前端 组件化 2月月更 webComponents

网易有道自研RAG引擎QAnything升级:发布纯python版本,首次支持在Mac运行_AI&大模型_凌敏_InfoQ精选文章