【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

专访腾讯小知陈松坚:知识表示是 NLP 乃至 AI 发展的瓶颈

  • 2018-12-26
  • 本文字数:2702 字

    阅读完需:约 9 分钟

专访腾讯小知陈松坚:知识表示是NLP乃至AI发展的瓶颈

人工智能领域有这样一句名言:解决了 NLP 的难题,也就解决了 AI 领域 80%的问题。从对话机器人 Eliza 开始,人们就对“会说话的机器”出奇的着迷,随着人工智能技术的进步,越来越多的人投身自然语言处理(NLP)的研究中,为了开发出智能、易用的对话机器人而不懈努力着。


几个月前,AI 前线策划了一篇文章,题为《都说聊天机器人已死,为什么腾讯还要打造自己的智能客服?》,在这篇文章中,我们曾深入讨论过智能客服 / 问答产品和 NLP 技术的技术难点、解决思路、商业化落地的途径和未来发展,在极客邦科技主办的全球人工智能与机器学习技术大会:AICon 2018 上,我们有幸再次专访到腾讯数据平台部高级算法研究员陈松坚,除了对他本人的技术研发之路有了更深的了解,陈松坚也与我们分享了许多有关 NLP 发展瓶颈以及技术趋势的看法。

入坑 NLP,一不小心深耕十年

自然语言处理被称为人工智能皇冠上的明珠,为了它,无数研究人员为之辛勤钻研,陈松坚就是这其中的一员。2009 年,还是研究生的陈松坚选择了 NLP 作为自己的研究方向。为了这个选择,他与自己作了一番斗争。


从当时比较现实的角度看,算法或许更好就业,于是陈松坚选择了机器学习、NLP、计算机视觉、数据挖掘等几个方向作为备选。至于为什么最终选择 NLP,陈松坚说,主要是因为考虑自己当时对搜索引擎比较关注,尤其是智能搜索技术;而从理想的角度想,他说自己从小比较喜欢机器人,一直有个梦想开始建造自己的机器人系统,而 NLP 是其中的不可或缺的部分,于是也就自然地做出选择了。


兜兜转转过了十年,陈松坚也早已成长为一名专业的研发人员,但是手里的工作还是转回到了 NLP 相关的项目上来——即腾讯小知,他开玩笑的说:或许是内心的召唤让自己重回智能对话这个研究领域。

小知是如何炼成的?

对于大部分对话机器人的研究人员来说:人类是如何产生认知并且与外部进行交互是一个永恒的课题,对于陈松坚来说自然是不例外,他认为:深度学习的兴起使得语音和图像识别的错误率大大降低,感知的问题得到了很大程度的解决。但是认知的问题,目前可以说还没有本质上的进步,原因就是那个永恒的课题。



“语言是思维的外化,研究语言的理解和产生,就是想借此推动认知智能的发展。”陈松坚补充道:“当然这需要一个迭代的过程,也需要一个场景去实践和落实这些想法, 于是我们选择了智能客服这个商业场景,去打造企业服务中的智能问答服务,输出价值。”


陈松坚说,智能问答中有很多方面都可以进行深入研究。


比如,基础层可以做深度语义匹配模型核心组件的进一步优化,还有开发问答拒识模型,用于过滤当前问答库无法回答的问题;应用层可以做强化学习在多轮任务机器人的应用,主要用于进行对话策略的在线学习。据了解,目前小知团队已经成功开发了若干个特定任务的 demo,正在准备正式部署到线上使用。


说回陈松坚深度参与的腾讯小知项目。


小知是从去年 7 月开始启动研发的智能客服系统,经历 1 年多的核心功能打造,现已落地多个应用,日均回答百万量级。在之前的采访中,陈松坚曾说:小知目前落地在政务、零售、服务等多个行业,上线时间仅 2 个月,已落地了数套成熟行业解决方案,成长势头很好。


虽然长势喜人,但说起小知的成长历程,陈松坚还是发出了一声感叹:万事起头难。


他解释道,在小知刚起步的时候,团队里对深度匹配模型的经验较少,而又由于业务上线的进度比较紧迫,因此选择双线作战,一边开发基于传统机器学习模型(xgboost)的线上系统,另一边进行深度语义匹配模型的论文复现,调优和工程实践。


考虑到 SaaS 场景下用户能够提供的训练语料非常欠缺,陈松坚和团队因此特地引入了迁移学习的策略来对应解决语料不足的问题。事实证明这些安排和策略都取得不错的效果。


能够带领小知的算法团队,从零开始一步一步地建设这种面向行业的智能问答解决方案,让陈松坚倍感欣慰,一方面需要快速响应业务的需求,快速实现和上线新功能,切实解决客户提出的问题;另一方面又必须紧跟业界和学界最新的技术,并积极寻求实施落地的路径,陈松坚说,从个人角度来说,这是最有成就感的事情。


从业近十年,陈松坚也积累了大量的实践经验,在采访中他也毫不吝啬地将这些经验分享给了有同样困扰地开发者:


他认为对于开发者来说,首先,要尽早搞清楚业务的需求,不同行业的问答解决方案很可能会涉及到不同的技术点,而且不同的业务场景对准确率指标的要求也不一样,这个也会影响算法落地的侧重点。比如小知最早接入的公安行业,知识库就特别复杂,分支条件很多,因此需要大量使用知识图谱来补全 FAQ 机器人的问答死角。


第二,要注意测评数据集的准确构建,尤其是线上环境的测试数据的收集,需要保证线下实验能对齐模型在线上环境的效果。另外就是跟业务关联的评价体系的构建,这样才能朝着正确的方向,稳定地迭代优化。

NLP 如何突破瓶颈?

智能客服是非常综合的 AI 系统,几乎涉及 NLP 领域所有技术点,甚至还包括语音和图像的处理。但人们对技术往往短期期望过高,而长期期望过低。虽然近年来 NLP 应用,尤其是翻译,写作,对话机器人等,在模型增强和知识图谱建设完善的过程中,在特定的场景下,满足了大部分人的使用需求,但是,在陈松坚看了,NLP 仍有一些瓶颈问题需要解决。



他说:AI 领域目前解决的问题,使用的都是模式识别的方法。进一步解释的话,就是通过大量的训练数据去找到数据内里的模式,然后再应用到实际数据的识别上,比如说语音的识别,图像的识别等,对应的是感知智能。


而 NLP 问题往往需要更高级的方法,因为在语言理解中涉及到大量的上下文,而除了一般意义的语言上下文,更重要的是外部知识上下文。这对应的就是认知智能的范畴,即如何帮助机器人构建概念世界,并作用到 NLP 的处理过程中。


陈松坚比喻说:“我认为对知识表示的建模,是目前 NLP 乃至 AI 技术发展的瓶颈,如果是 NLP 是皇冠上的明珠,那知识表示就是其中最大的一颗。”


他解释道,目前的知识都是基于符号表示的,比如知识图谱是利用了图节点来表示概念,关联边来表示概念之间的关系,但总的来说还是一个符号系统,所以的操作还是符号的检索和匹配,而跟当前的深度神经网络模型没办法有机结合。


所以,他本人与研发团队思考的方向也是诸如:是否可以将所有概念和关系都利用深度学习技术向量化,以及如何将规则也使用模型表示等问题。


强化学习在多轮对话中的应用也是陈松坚重点关注的技术趋势,主要是在特定场景下进行对话策略的学习,例如订票订餐任务,商品推荐等。他认为,目前主流的任务机器人都是基于槽位填充的方法,对话策略主要基于事先约定的规则,不够灵活,而强化学习可以通过结合端到端模型来实现对话策略的灵活调整,并且能够实现在线学习,使得多轮对话模型可以持续优化。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-12-26 14:431927
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 263.3 次阅读, 收获喜欢 1293 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

你还在用命令式编程?Python函数式编程让你的代码更优雅!

高端章鱼哥

Python 函数式编程

Hybrid App 技术解析:热更新的原理

Onegun

混合应用开发 native 热更新 Hybrid

粗粮细作,铁合金行业的节能降耗

用友BIP

冶金

图技术在 LLM 下的应用:知识图谱驱动的大语言模型 Llama Index

NebulaGraph

图数据库 知识图谱 LLM

FTP文件传输工具:简单、高效、实用的数据传输方式

镭速

快速文件传输 FTP文件传输工具

Ubuntu 18.04系统编译安装Docker教程。

百度搜索:蓝易云

Docker 云计算 Linux ubuntu 运维

【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南(备份+恢复篇)

洛神灬殇

MySQL 数据恢复 数据备份 技术分析

GitHub上有哪些好项目?GeaFlow图计算快速上手之SSSP算法

TuGraphAnalytics

图算法 图论 GeaFlow tugraph 单源最短路径

网络安全(黑客)自学

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

金融领域:产业链知识图谱包括上市公司、行业和产品共3类实体,构建并形成了一个节点10w+,关系边16w的十万级别产业链图谱

汀丶人工智能

自然语言处理 知识图谱

大数据实时链路备战——数据双流高保真压测 | 京东云技术团队

京东科技开发者

大数据 压测 企业号 7 月 PK 榜 双流 数据双流

AI驱动税务智能,开启智慧税务新纪元

用友BIP

AI 税务管理

iOS MachineLearning 系列(21)——CoreML模型的更多训练模板

珲少

AIIA杭州大会|李京梅:基于孟子GPT生成式大模型的技术与行业应用实践

澜舟孟子开源社区

提升直播软件源码开发平台性能关键利器功能_山东布谷科技创作

山东布谷科技

源码 软件 软件开发 直播 源码搭建

Ubuntu 18.04系统编译安装Tomcat教程。

百度搜索:蓝易云

云计算 tomcat Linux ubuntu 运维

中企出海,数智人力构建全球化组织的驱动力!

用友BIP

中企出海 数智人力

一文带你全面了解openGemini

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

AI新场景 安全新边界技术高峰会定档8月9日

权说安全

低代码:“提效降本”是如何炼成的

这我可不懂

软件开发 低代码 降本增效

低代码治好了CIO们的 “精神内耗”

高端章鱼哥

软件开发 低代码 数字化 软件交付 降低成本

Flink 最佳实践:TDSQL Connector 的使用(上)

腾讯云大数据

flink 流计算 Oceanus

拆解雪花算法生成规则 | 京东物流技术团队

京东科技开发者

算法 雪花算法 企业号 7 月 PK 榜

改变人力资源业务战略,释放变革性技术力量

智达方通

全面预算管理 企业人力资源 智达方通EPM系统

2023 年 10 大前端发展趋势

互联网工科生

前端 发展趋势

深耕零售行业数字化,乐檬软件与华为云携手共进

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

在Java中的空指针异常怎么避免?

java易二三

指针 java‘ #编程

货拉拉基于 Flink 计算引擎的应用与优化实践

Apache Flink

大数据 flink 实时计算

从零开始搭建医药领域知识图谱实现智能问答与分析服务(含码源):含Neo4j基于垂直网站数据的医药知识图谱构建、医药知识图谱的自动问答等

汀丶人工智能

人工智能 知识图谱 智能问答

频繁FullGC的原因竟然是“开源代码”? | 京东云技术团队

京东科技开发者

JVM GC 企业号 7 月 PK 榜 Full GC

antv-x6使用及总结 | 京东物流技术团队

京东科技开发者

数据可视化 可视化开发 企业号 7 月 PK 榜 antv-x6

专访腾讯小知陈松坚:知识表示是NLP乃至AI发展的瓶颈_AI&大模型_陈思_InfoQ精选文章