写点什么

Salesforce 发布数据库自然语言接口 Photon

  • 2020-10-04
  • 本文字数:1320 字

    阅读完需:约 4 分钟

Salesforce发布数据库自然语言接口Photon

来自 Salesforce Research 和香港中文大学的一个科学家团队发布了一种叫作“Photon”的数据库自然语言接口(NLIDB)。该团队使用深度学习技术构建了一个在通用基准测试中达到 63%准确率的解析器,以及一个可以提示用户澄清模糊问题的错误检测模块。


该团队在最近的ACL 2020大会上演示了 Photon,团队成员 Victoria Lin 在最近的博文中描述了该系统。Photon 的核心是一个基于神经网络的语义解析器,它可以将人类用户的自然语言问题转换成 SQL 查询。解析器在Spider数据集上实现了 63.2%的匹配精度,这是迄今为止排名第二高的结果。Photon 还包含了一个问题校正器,当人类输入不能被翻译成 SQL,它可以检测出来。问题校正器使用“聊天机器人”风格的界面启动一个对话,并进一步完善问题。专业用户还可以直接以 SQL 的形式输入查询。Lin 表示:


从现代 NLP 的进步程度来看,我们相信一个自然语言信息系统的时代即将到来。


NLIDB 的目标是“民主化”从关系数据库提取有用数据的能力,允许用户用自然语言提问,而不需要用 SQL 等编程语言构造查询。与其他同类系统一样,Photon 使用一种被称为语义解析的策略,它将自然语言问题转换成逻辑形式——本质上是将人类语言转换成编程语言语句。Photon 的解析器基于一个神经网络,它的输入是一个与数据库模式相关联的自然语言问题,输出是一个 SQL 查询语句。解析器不能访问数据库的全部内容,但可以访问“范畴列”的值。解析器由一个预先训练好的 BERT 模型和一系列 LSTM 子网络组成。Photon 随后对网络输出执行波束搜索解码,并对结果应用静态 SQL 正确性检查。根据作者的说法,这带来了大约 5%的改进(基于 Spider 数据集)。


为了提高系统的健壮性,Photon 提供了一个问题校正器。校正器使用另一个神经网络——用来确定一个问题是否不能准确地转换成 SQL 的分类器。通过对可翻译问题进行“交换”和“删除”操作,研究人员构建了一个合成数据集来训练分类器。例如,问题“存在多少个国家”可能被转换成“存在多少个”。混淆检测器还可以识别问题中令人感到困惑的部分。这些问题被用于提供修正建议,它们通过聊天界面反馈给用户。


其他科技公司也在构建类似的 NLIDB 系统。微软研究院开发了一个叫作CAMP的神经网络语义解析系统,该系统使用一系列门控循环单元(GRU)将自然语言问题转换为 SQL 查询。谷歌的TAPAS采用了一种稍微不同的方法。TAPAS 的训练过程直接包含了表数据,而不是将自然语言解析为 SQL。Photon 的作者指出,在表数据上训练网络存在数据隐私问题。


在 Hacker News 的一个讨论帖子中,用户对 NLIDB 结果的质量发表了评论。一个用户指出:


模型不善于说“不知道”。不过我很乐观。每年都看到显著的进步(受 NLP 的实际进步推动),训练数据集也变得越来越有趣。现在有了会话数据集(例如https://yale-lily.github.io/cosql)),模型被训练问后续的问题,目标是“让系统来澄清模糊的问题、验证返回的结果,并告知用户那些无法回答或不相关的问题”。这可能是一个巨大的胜利。


Photon 的演示版本已经向公众开放。Lin 说,未来的工作包括“语音输入、自动完成和可视化输出”,但推出这些功能的具体日期尚未公布。


原文链接


Salesforce Releases Photon Natural Language Interface for Databases


2020-10-04 10:002652

评论

发布
暂无评论
发现更多内容

从 “被动耗能” 到 “主动优化”:MyEMS 开启商业建筑能源管理 “新范式”

开源能源管理系统

开源 开源能源管理系统

【RFID智能工具柜品牌推荐】价格差异大吗?哪款性价比更高?

斯科信息

斯科信息 深科物联 RFID工具柜品牌推荐 RFID工具柜哪家好

兼顾效率和性能!快手低代码平台在大型活动中的技术实践!

快手技术

AI百舸争流时代,华为如何帮助行业破浪前行?

脑极体

AI

解码海外声音:社交媒体监控如何成为舆情监测的关键支点

沃观Wovision

跨境贸易 社交媒体 沃观Wovision 舆情监测系统 海外舆情监测

拇指活动发布平台小程序管理系统:全场景活动管理解决方案

微擎应用市场

Roo Code 使用 Bright Data mcp 实现获取 Tiktok 数据一键生成页面

陈老老老板

AI Agent MCP

DataLab 平台亮相 MAIC 2025医学人工智能大会,和鲸助力同济医院构建医学 AI 科研新基础设施

ModelWhale

医学+AI 医学人工智能 华中科技大学附属同济医院 医学人工智能大会 MAIC

UniverAI平台让医药代表销售不再“翻资料”,合规更能非常高效

UniverAI智宇苍穹

AI 基础设施 企业级AI工程化 AI平台 UniverAI

藏在能耗数据里的 “省钱密码”,MyEMS 帮你一一解锁不止节能,更是 “碳管理利器”!

开源能源管理系统

开源 开源能源管理系统

我和AI一块做了个社交网页玩

Lemoon Can

可逆计算:一场软件构造的世界观革命

canonical

python实现B站评论分页爬取

tbapi

B站 API接口 B站数据采集 B站视频评论采集 哔哩哔哩数据采集 B站评论API

打破AI孤岛:CIO集成实战指南

qife122

人工智能 数据治理

微软SSO集成中的顺序用户ID身份验证绕过漏洞剖析

qife122

网络安全 单点登录 漏洞挖掘

构建企业级 AI 应用:为什么我们需要 AI 中间件?

Apache RocketMQ

云原生 中间件 消息队列 云栖大会

拒绝 “能源糊涂账”!MyEMS 如何让中小企业能耗管理 “秒上手”?

开源能源管理系统

开源 能源管理系统

跨平台一键登录验证的技术实践:第三方认证多终端兼容方案解析

MobTech袤博科技

登录验证

IT资产管理内容有哪些?-ManageEngine卓豪

ServiceDesk_Plus

ManageEngine卓豪

深入解析:使用Python爬取Bilibili视频的完整指南

tbapi

B站视频数据采集 B站 API接口 B站视频评论采集 哔哩哔哩数据采集

Roo Code 使用 Bright Data mcp 实现获取 Tiktok 数据一键生成页面

陈老老老板

AI Agent MCP

华为云云容器引擎CCE:文档内容细打磨,服务上手更轻松

华为云原生团队

云计算 容器 云原生

房产楼盘小程序管理系统:助力房产营销数字化升级的优质解决方案

微擎应用市场

房产楼盘小程序管理系统:助力房产营销数字化升级的优质解决方案

微擎应用市场

全域洞察新时代:舆情监测与海外社交媒体监控的整合实战

沃观Wovision

社交媒体 沃观Wovision 舆情监测系统 海外舆情监测

Playwright MCP浏览器自动化全攻略

测吧(北京)科技有限公司

开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾

OpenAnolis小助手

开源 操作系统 云栖大会 龙蜥社区

智慧联防系统

深圳亥时科技

来信小程序管理系统:匿名信息传递与社交互动平台

微擎应用市场

再见 greenplum_path.sh,你好 cloudberry-env.sh

酷克数据HashData

直播预告:Mooncake 如何破解成本、吞吐与长上下文困局? |《AI 进化论》第五期

OpenAnolis小助手

开源 操作系统 Mooncake 大模型推理 AI进化论

Salesforce发布数据库自然语言接口Photon_数据库_Anthony Alford_InfoQ精选文章