写点什么

Salesforce 发布数据库自然语言接口 Photon

  • 2020-10-04
  • 本文字数:1320 字

    阅读完需:约 4 分钟

Salesforce发布数据库自然语言接口Photon

来自 Salesforce Research 和香港中文大学的一个科学家团队发布了一种叫作“Photon”的数据库自然语言接口(NLIDB)。该团队使用深度学习技术构建了一个在通用基准测试中达到 63%准确率的解析器,以及一个可以提示用户澄清模糊问题的错误检测模块。


该团队在最近的ACL 2020大会上演示了 Photon,团队成员 Victoria Lin 在最近的博文中描述了该系统。Photon 的核心是一个基于神经网络的语义解析器,它可以将人类用户的自然语言问题转换成 SQL 查询。解析器在Spider数据集上实现了 63.2%的匹配精度,这是迄今为止排名第二高的结果。Photon 还包含了一个问题校正器,当人类输入不能被翻译成 SQL,它可以检测出来。问题校正器使用“聊天机器人”风格的界面启动一个对话,并进一步完善问题。专业用户还可以直接以 SQL 的形式输入查询。Lin 表示:


从现代 NLP 的进步程度来看,我们相信一个自然语言信息系统的时代即将到来。


NLIDB 的目标是“民主化”从关系数据库提取有用数据的能力,允许用户用自然语言提问,而不需要用 SQL 等编程语言构造查询。与其他同类系统一样,Photon 使用一种被称为语义解析的策略,它将自然语言问题转换成逻辑形式——本质上是将人类语言转换成编程语言语句。Photon 的解析器基于一个神经网络,它的输入是一个与数据库模式相关联的自然语言问题,输出是一个 SQL 查询语句。解析器不能访问数据库的全部内容,但可以访问“范畴列”的值。解析器由一个预先训练好的 BERT 模型和一系列 LSTM 子网络组成。Photon 随后对网络输出执行波束搜索解码,并对结果应用静态 SQL 正确性检查。根据作者的说法,这带来了大约 5%的改进(基于 Spider 数据集)。


为了提高系统的健壮性,Photon 提供了一个问题校正器。校正器使用另一个神经网络——用来确定一个问题是否不能准确地转换成 SQL 的分类器。通过对可翻译问题进行“交换”和“删除”操作,研究人员构建了一个合成数据集来训练分类器。例如,问题“存在多少个国家”可能被转换成“存在多少个”。混淆检测器还可以识别问题中令人感到困惑的部分。这些问题被用于提供修正建议,它们通过聊天界面反馈给用户。


其他科技公司也在构建类似的 NLIDB 系统。微软研究院开发了一个叫作CAMP的神经网络语义解析系统,该系统使用一系列门控循环单元(GRU)将自然语言问题转换为 SQL 查询。谷歌的TAPAS采用了一种稍微不同的方法。TAPAS 的训练过程直接包含了表数据,而不是将自然语言解析为 SQL。Photon 的作者指出,在表数据上训练网络存在数据隐私问题。


在 Hacker News 的一个讨论帖子中,用户对 NLIDB 结果的质量发表了评论。一个用户指出:


模型不善于说“不知道”。不过我很乐观。每年都看到显著的进步(受 NLP 的实际进步推动),训练数据集也变得越来越有趣。现在有了会话数据集(例如https://yale-lily.github.io/cosql)),模型被训练问后续的问题,目标是“让系统来澄清模糊的问题、验证返回的结果,并告知用户那些无法回答或不相关的问题”。这可能是一个巨大的胜利。


Photon 的演示版本已经向公众开放。Lin 说,未来的工作包括“语音输入、自动完成和可视化输出”,但推出这些功能的具体日期尚未公布。


原文链接


Salesforce Releases Photon Natural Language Interface for Databases


2020-10-04 10:002526

评论

发布
暂无评论
发现更多内容

线上服务 CPU 100%?一键定位 so easy!

Java小咖秀

性能 cpu 负载 线上排障 线上问题

nginx.conf核心配置

马里奥

nginx Configuration 配置

边缘计算应用的价值

云计算

MySQL数据库函数、DCL详解(及备份恢复操作)

若尘

MySQL 数据库 备份 DCL

nginx性能优化--配置解析

箭上有毒

nginx 性能测试 4月日更

区块链电子合同签署平台,区块链电子合同解决方案

13828808769

区块链+ #区块链#

CSS 学习笔记(一) 选择器

U2647

CSS CSS小技巧 4月日更

可视化运行Python的神器Jupyter Notebook

程序那些事

Python Jupyter Notebook 程序那些事

带你全面认识CMMI V2.0(终)——实施落地

IPD产品研发管理

项目管理 软件 CMMI

源中瑞区块链Baas平台--助力区块链应用落地

13530558032

java中三种内存溢出错误的处理方法

Sakura

4月日更

新特性巨量来袭,MindSpore开源一周年实力“狂欢”

华为云开发者联盟

开源 modelarts mindspore 数据预处理加速 分子模拟库

「免费开源」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之docker部署(八)

crudapi

Docker Vue crud crudapi quasar

书单|互联网企业面试案头书之产品经理篇

博文视点Broadview

区块链结合农业产业,平台全程溯源

电微13828808271

解读金融高频交易不出错的金手指:分布式事务管理

华为云开发者联盟

微服务 事务 华为云 数据一致性 分布式事务管理

GopherChina 2021 定了,干货满满的来了

GoCN技术社区

Go 语言 GopherChina

Spark数据倾斜解决方案实战(三)

小舰

4月日更

HECO火币生态链智能合约Dapp软件系统APP开发

系统开发

区块链农产品防伪溯源平台,助力赣南脐橙产业发展

13828808769

区块链+ #区块链#

MemVerge CEO表示基于大内存的基础架构将取代性能层级存储

Steven Xu

内存 存储 基础框架 傲腾

区块链商品溯源平台--全流程捍卫食品安全

13530558032

基于拉链式和线性探测式散列表实现Map

Silently9527

Java hashmap 线性探测 拉链式散列表 散列表

【LeetCode】二叉搜索树节点最小距离Java题解

Albert

算法 LeetCode 4月日更

有了这个数据强一致“利器”,DBA们轻松修复数据对加班“say no”

华为云开发者联盟

存算分离 华为云数据库 GaussDB(for Cassandra) 强一致 开源Cassandra

智慧公安重点人员管控系统搭建,重点人员管控解决方案

13828808769

智慧交通

Dubbo 编解码那些事

vivo互联网技术

dubbo RPC 序列化 编解码

聊聊LiteOS事件模块的结构体、初始化及常用操作

华为云开发者联盟

LiteOS 事件 事件结构体 事件掩码

区块链“数据上链”管理系统

电微13828808271

Linux crontab 命令

一个大红包

Linux linux命令 4月日更

什么是自然语言处理(NLP)?

澳鹏Appen

人工智能 自然语言处理 聊天机器人 nlp 自然语言

Salesforce发布数据库自然语言接口Photon_数据库_Anthony Alford_InfoQ精选文章