关注前沿技术,分享热点话题,QCon全球软件开发大会三站同启,重磅回归!立即查看 了解详情

Salesforce发布数据库自然语言接口Photon

2020 年 10 月 04 日

Salesforce发布数据库自然语言接口Photon

来自 Salesforce Research 和香港中文大学的一个科学家团队发布了一种叫作“ Photon ”的数据库自然语言接口 (NLIDB)。该团队使用深度学习技术构建了一个在通用基准测试中达到 63% 准确率的解析器,以及一个可以提示用户澄清模糊问题的错误检测模块。

该团队在最近的 ACL 2020 大会上演示了 Photon,团队成员 Victoria Lin 在最近的博文中描述了该系统。Photon 的核心是一个基于神经网络的语义解析器,它可以将人类用户的自然语言问题转换成SQL 查询。解析器在 Spider 数据集上实现了 63.2% 的匹配精度,这是迄今为止排名第二高的结果。Photon 还包含了一个问题校正器,当人类输入不能被翻译成 SQL,它可以检测出来。问题校正器使用“聊天机器人”风格的界面启动一个对话,并进一步完善问题。专业用户还可以直接以 SQL 的形式输入查询。Lin 表示:

从现代 NLP 的进步程度来看,我们相信一个自然语言信息系统的时代即将到来。

NLIDB 的目标是“民主化”从关系数据库提取有用数据的能力,允许用户用自然语言提问,而不需要用 SQL 等编程语言构造查询。与其他同类系统一样,Photon 使用一种被称为语义解析的策略,它将自然语言问题转换成逻辑形式——本质上是将人类语言转换成编程语言语句。Photon 的解析器基于一个神经网络,它的输入是一个与数据库模式相关联的自然语言问题,输出是一个 SQL 查询语句。解析器不能访问数据库的全部内容,但可以访问“范畴列”的值。解析器由一个预先训练好的 BERT 模型和一系列 LSTM 子网络组成。Photon 随后对网络输出执行波束搜索解码,并对结果应用静态 SQL 正确性检查。根据作者的说法,这带来了大约 5% 的改进(基于 Spider 数据集)。

为了提高系统的健壮性,Photon 提供了一个问题校正器。校正器使用另一个神经网络——用来确定一个问题是否不能准确地转换成 SQL 的分类器。通过对可翻译问题进行“交换”和“删除”操作,研究人员构建了一个合成数据集来训练分类器。例如,问题“存在多少个国家”可能被转换成“存在多少个”。混淆检测器还可以识别问题中令人感到困惑的部分。这些问题被用于提供修正建议,它们通过聊天界面反馈给用户。

其他科技公司也在构建类似的 NLIDB 系统。微软研究院开发了一个叫作 CAMP 的神经网络语义解析系统,该系统使用一系列门控循环单元 ( GRU ) 将自然语言问题转换为 SQL 查询。谷歌的 TAPAS 采用了一种稍微不同的方法。TAPAS 的训练过程直接包含了表数据,而不是将自然语言解析为 SQL。Photon 的作者指出,在表数据上训练网络存在数据隐私问题。

在 Hacker News 的一个讨论帖子中,用户对 NLIDB 结果的质量发表了评论。一个用户指出:

模型不善于说“不知道”。不过我很乐观。每年都看到显著的进步 (受 NLP 的实际进步推动),训练数据集也变得越来越有趣。现在有了会话数据集 (例如 https://yale-lily.github.io/cosql) ),模型被训练问后续的问题,目标是“让系统来澄清模糊的问题、验证返回的结果,并告知用户那些无法回答或不相关的问题”。这可能是一个巨大的胜利。

Photon 的演示版本已经向公众开放。Lin 说,未来的工作包括“语音输入、自动完成和可视化输出”,但推出这些功能的具体日期尚未公布。

原文链接

Salesforce Releases Photon Natural Language Interface for Databases

2020 年 10 月 04 日 10:00 1760

评论

发布
暂无评论
发现更多内容

从零到部署:用 Vue 和 Express 实现迷你全栈电商应用(二)

图雀社区

node.js vue.js Vue

代码刚提交暂存区,组长突然要我把新增代码 Commit另一分支怎么办?

zhuoqianmingyue

git

2020年3月北京BGP机房网络质量评测报告

BonreeAPM

运维 APM 机房 数据中心 拨测

是什么在背后支撑起“带货一哥”李佳琦?

BonreeAPM

负载均衡 APM 压测 秒杀 并发

Cassandra集群架构及算法剖析

老任物联网杂谈

大数据 分布式 Cassandra 时序数据库

列个清单-《清单革命》

Jack Hong

快速入门 Nacos 作为配置中心操作

zhuoqianmingyue

nacos SpringBoot 2

玩转SpringBoot2.x之缓存对象

zhuoqianmingyue

redis springboot

zookeeper到nacos的迁移实践

小楼

架构 nacos

Spring Cloud 和 Dubbo 哪个会被淘汰?

程序猿DD

Spring Cloud dubbo

在线文档的开发难度与突破

Geek_Willie

分布式协同 SpreadJS 在线文档

20200518-20200524朋友圈思考汇总

罗小布

日常思考

Java | @Override 不要再把它当成可有可无的了

YoungZY

Java 注解 Override annotation

微信gif图片大小的规则

石云升

微信 GIF

产品周刊 | 第 16 期(20200524)

Herbert

产品 设计 产品经理 产品设计

使用Spring Boot和Docker构建微服务架构(二)

MaxHu

Docker 架构 容器 微服务 Spring Boot

使用Spring Boot和Docker构建微服务架构(四)

MaxHu

Docker 架构 容器 微服务 Spring Boot

我是程序员,我为自己代言,我相信程序改变世界,虽然少不了质疑和嘲笑

陆陆通通

编程 程序员 高薪 代码

爬虫框架Scrapy应用实践-淘宝保险频道数据抓取【1】-前期准备

hadesxiong

Python 爬虫 保险 Scrapy

后台定时统计任务太耗时如何优化一下

zhuoqianmingyue

线程池

微软:正式发布针对 .NET Core的 Winform 设计器

Geek_Willie

.net 微软 Win .net core

配置国内的pip源以提高使用pip安装python软件包的速度

良少

Python pip

理解这八大优势,才算精通单元测试

陈琦

测试 单元测试

使用Spring Boot和Docker构建微服务架构(三)

MaxHu

Docker 架构 容器 微服务 Spring Boot

思考:如何打造一个优秀的研发体系?

菜根老谭

研发管理 研发效能 研发体系

足不出户“逛”银行,37家城商行、农商行手机银行App性能大比拼

BonreeAPM

APM App 评测 网银 银行

企业微信机器人在大型财务共享中心的应用实践

DT极客

坚持ARTS(week-1)

王钰淇

ARTS 打卡计划

ARTS第一周

困到清醒

ARTS 打卡计划 起跑

Jsp页面报错后如何找到提示信息中的_jsp.java文件

阡陌r

使用Spring Boot和Docker构建微服务架构(一)

MaxHu

Docker 架构 容器 微服务 Spring Boot

Salesforce发布数据库自然语言接口Photon-InfoQ