高品质的音视频能力是怎样的? | Qcon 全球软件开发大会·上海站邀请函 了解详情
写点什么

更精准、专业,夸克智能问答系统的构架与实践

  • 2020-11-30
  • 本文字数:2100 字

    阅读完需:约 7 分钟

更精准、专业,夸克智能问答系统的构架与实践

夸克是阿里巴巴旗下智能搜索 APP。聚焦智能化信息服务,夸克以智能、高效的搜索体验和创新的功能场景,打造智能化内容+服务的分发平台,目前已服务千万级用户。技术研发层面,夸克算法技术团队持续升级智能问答体系,面向未来探索下一代智能搜索。


欢迎有志于智能搜索的算法同学加盟夸克,可联系:erchao.zec@alibaba-inc.com

背景


问答系统(Question Answer System, QA)是信息检索的一种高级形式,对用户提出的问题,能直接返回准确、精炼、完整的答案满足用户需求。近年来,随着人工智能技术的飞速发展,问答系统已经成为倍受关注的研究方向。夸克智能问答结合了近两年前沿的预训练模型和深度语义匹配技术,为用户提供专业、精准的通用问答服务,本文重点介绍构建该系统时的一些实践经验,希望对问答系统建设者有一定的借鉴意义。

整体架构


夸克智能问答系统利用知识库、专家问答数据、UGC 问答数据、自然网页等多种不同来源、不同质量的数据,使用机器阅读理解技术、问题重述等自然语言生成技术、基础相关性特征等多种基础技术能力,建立了问题意图识别、语义检索、答案抽取、答案校验融合等算法模块,最终通过知识问答、精选问答、智能摘要等多种形式为用户提供更专业、精准的通用问答服务。



问答模块


针对不同的数据源特点和用户多样的检索需求,夸克智能问答系统设计了知识问答、精选问答、智能摘要等多个问答模块,结合信息抽取、深度语义匹配、答案抽取等诸多算法,将优质的答案以更好的形式直达给用户。

知识问答


知识问答是基于结构化知识的问答模块。理解用户的需求、实现真正的语义理解需要知识,从下图例子可以看到,如果没有知识库的数据支撑,很容易误抽取出错误的答案“张牧之”或者“张麻子”,相反如果结合知识库数据,不难得到正确答案“姜文”。



知识的获取是构建知识问答模块不可或缺的环节,夸克探索了一种半自动化、自底向上的大规模知识库构建方式,大大降低了知识库的构建成本,整体知识库构建流程如下图所示:



有了通用领域的大规模知识库,知识问答系统通过 Query 结构化、知识查询、知识推理等技术从海量知识数据中获取专业的知识作为答案,精准满足用户需求。例如用户在搜索框里搜索“朱棣皇位传给谁”、“词人李清照南宋还是北宋的”,返回如下图所示的结果:



精选问答


精选问答是基于专家问答数据库的模块。为了给用户提供更多权威、专业的优质的内容,结合用户兴趣点分析,我们和行业专家、优质自媒体等内容生产方定向生产、建设了大批优质、权威的专家问答数据库,包含文字、图片、视频、音频等多源富媒体形式,覆盖医疗、健康、法律、美食、生活指南等多个行业。基于以上大规模的高质量<Question, Answer> Pair,线上通过 Query&Question 的深度语义匹配技术从候选问答 Pair 中获取优质的内容作为答案直接返回给用户,为用户提供精选答案体验。



智能摘要


智能摘要是从自然结果中在线获取用户所需答案的模块。知识问答、精选问答只能覆盖中高频的查询,无法应对大量长尾问答需求,而全网搜索结果中存在大量适合作为答案的优质网页数据,智能摘要模块结合了意图分析、网页质量判别、深度语义匹配、机器阅读理解等多种技术,在线、实时地从检索的 Top 网页中抽取出适合作为答案的文本内容返回给用户。结合开放域、多粒度的答案抽取能力,系统拥有了短答案前置、观点判断、智能飘红等丰富展现样式,进一步提升用户体验。



总结及展望


夸克智能问答系统目前已经在为夸克搜索、UC 浏览器、天猫精灵等海量用户提供专业、精准的通用问答服务。展望未来,我们期待技术驱动业务,为用户提供更大的价值,并持续在以下技术方向发力:


  1. 进一步提升模型的鲁棒性:基于 BERT 等预训练模型技术虽然表现出非常好的性能,展现了强大的语义编码能力,但从预测结果上看,模型对一些文本的线索信息具有强大的记忆能力,存在对某些模式显著的过拟合问题,对于存在误导的对抗性样本表现非常脆弱,鲁棒性待进一步的提升。


  1. 大规模知识体系的进一步结合:在很多情况下,只有具备了一定程度的知识,模型才有可能对字面上的含义做出更深一层次的理解。在机器阅读理解等模型中如何更进一步融入领域知识、常识信息,在更好的理解语言的同时使模型具有更好的可控性和可解释性具有较高的价值。


  1. 从智能问答走向智能对话:在智能问答系统的基础上,更进一步结合客观知识和上下文信息,实现更自然、更智能的人机对话。


  1. 多模态数据源的进一步融合:随着互联网的持续发展,用户对于智能问答系统在信息的模态、直观性和丰富性上提出了更高的要求。如何进一步在交互形式、语义理解能力、数据处理流程等环节进一步优化智能体验,更好地满足多媒体形式下的用户需求值得深入研究。

招募令


夸克广招算法技术大咖,主要负责自然语言理解方向前沿技术的研究探索,为阿里巴巴集团旗下夸克、阿里健康、移动搜索、天猫精灵等多个业务提供文本语义理解相关的核心技术支持,主要方向包含:


  • 机器阅读理解技术、智能问答、文本匹配、开放信息抽取等内容理解技术,并探索在搜索、对话等诸多场景落地应用;


  • 问题/标题生成、问题改写、AI 批改、自动文本摘要等自然语言生成技术;


  • 带噪学习、对抗学习、强化学习等基础技术研究;


欢迎投递简历至:erchao.zec@alibaba-inc.com


2020-11-30 11:414859

评论

发布
暂无评论
发现更多内容

linux重要的目录之etc

入门小站

Linux

在线文本对比工具

入门小站

工具

Linux 中的 15 个强大的 firewall-cmd 命令,牛牛牛!

Ethereal

Linux 运维 防火墙 Firewalld防火墙

Flutter - TabController监听index

坚果

flutter 11月日更

低代码实现探索(一)组件元信息定义

零道云-混合式低代码平台

低代码

数字人民币的基础:共识与信任!

CECBC

对元宇宙 我们期待什么?

CECBC

面试不慌,拿这70张思维导图,怒怼面试官

奔着腾讯去

c++ golang 数据结构 思维导图 TCP/IP

阿里大牛最新公开压轴的“Redis深度笔记”,GitHub已标星81.6K

热爱java的分享家

Java 架构 面试 程序人生 编程语言

字节大牛把算法常见面试:哈希、链表、队列、递归全部总结出来了

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

25 K8S之Endpoint对象

穿过生命散发芬芳

k8s 11月日更

区块链将掀开人类的伟大时代

CECBC

大厂算法面试之leetcode精讲7.双指针

全栈潇晨

LeetCode 算法面试

听说版本会说话,你相信吗?

程序那些事

版本控制 程序那些事 版本管理 版本升级 11月日更

历史上最伟大的一次 Git 代码提交

沉默王二

git

按需引入ant-design-vue组件

石云升

Vue 11月日更

修复一个BaseRecyclerViewAdapterHelper漏洞

Changing Lin

11月日更

Prometheus Exporter (十一)Kafka Exporter

耳东@Erdong

kafka Prometheus exporter 11月日更

【死磕Java并发】-----J.U.C之重入锁:ReentrantLock

chenssy

11月日更 死磕 Java 死磕 Java 并发

终于有腾讯架构师把困扰我多年的《计算机网络原理》全部讲明白了

热爱java的分享家

Java 面试 编程语言 网络协议 经验分享

Pulsar 在2.8升级过程中需要注意的TopicPolicy问题

Zike Yang

Apache Pulsar 11月日更

什么是IS-IS中间系统到中间系统?网工、运维必看!

Ethereal

网络技术

Spring Boot的前世今生以及它和Spring Cloud的关系详解

Java高级开发

Java 架构 springboot SpringCloud

低代码实现探索(二)低代码中的数据

零道云-混合式低代码平台

低代码

【高并发】浅谈AQS中的ReentrantLock、ReentrantReadWriteLock、StampedLock与Condition

冰河

Java 并发编程 多线程 高并发 异步编程

不是吧,都2021年了你别说你还不会Spring MVC基本应用

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

.NET6新东西--插值字符串优化

喵叔

11月日更

路由器或交换机配置中line vty 0 4到底是什么意思?

Ethereal

交换机 路由器 网络技术

简述以太坊P2P网络之UDP

devpoint

区块链 以太坊 udp 11月日更

看完了阿里大牛的Leetcode刷题笔记, 我成功拿到了字节跳动的offer

热爱java的分享家

Java 面试 算法 LeetCode 经验分享

Go语言学习查缺补漏ing Day7

Regan Yue

Go 语言 11月日更

更精准、专业,夸克智能问答系统的构架与实践_架构_季栾_InfoQ精选文章