写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:152939
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 591.6 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

Linux开发_文件目录操作介绍、创建BMP图片

DS小龙哥

6月月更

InfoQ 极客传媒 15 周年庆征文|必杀技--使用FFmpeg命令快速精准剪切视频

迷彩

前端 ffmpeg 视频剪辑处理 6月月更 InfoQ极客传媒15周年庆

元宇宙是短炒,还是未来趋势?

CECBC

银行布局元宇宙:数字藏品、数字员工成主赛道!

CECBC

【您编码,我修复】WhiteSource正式更名为Mend

龙智—DevSecOps解决方案

代码安全 WhiteSource Mend

BaseDexClassLoader那些事

北洋

6月月更

SAP HANA 错误消息 SYS_XSA authentication failed SQLSTATE - 28000

汪子熙

数据库 SAP hana 6月月更 数据库权限

模块8作业

KennyQ

功能标记是什么?一文了解它的作用,以及它的最佳实践

龙智—DevSecOps解决方案

perforce Helix Core 功能标记

八大误区,逐个击破(2):性能差?应用程序少?你对云的这些担心很多余!

龙智—DevSecOps解决方案

Atlassian atlassian云版 Atlassian白皮书

Node.js实用的内置API(一)

devpoint

node.js 全栈开发 InfoQ极客传媒15周年庆

加强区块链技术司法应用

CECBC

在M1上体验三星T7移动硬盘的性能

IT蜗壳-Tango

IT蜗壳教学 6月月更

设计消息队列存储消息数据的 MySQL 表格

小虾米

「架构实战营」

模块八-设计消息队列存储消息数据的 MySQL 表格

凯博无线

『Three.js』辅助坐标轴

德育处主任

canvas three.js 6月月更

疫情居家办公体验 | 社区征文

天黑黑

初夏征文

统一认证中心 Oauth2 高可用坑

Damon

微服务架构 安全架构 6月月更

云原生时代微服务架构设计实践

Damon

6月月更

InfoQ 极客传媒 15 周年庆征文|position:fixed 虚拟按键触发后无法生效问题分析及解决方案探究

No Silver Bullet

前端 6月月更 InfoQ极客传媒15周年庆 position:fixed

Vue-7-计算属性和方法的区别

Python研究所

6月月更

leetcode 47. Permutations II 全排列 II(中等)

okokabcd

LeetCode 搜索 数据结构与算法

预解析与作用域

Jason199

js 全局作用域 作用域 6月月更

架构训练模块 7

小马

#架构训练营

提升管道效率:你需要知道如何识别CI/CD管道中的主要障碍

龙智—DevSecOps解决方案

ci CD CloudBees CI/CD管道

OpenMAX (OMX)框架

程思扬

音视频 编解码

使用 select 切换协程

宇宙之一粟

golang 6月月更

InfoQ 极客传媒 15 周年庆征文|dubbo+zookeeper与提供者provider、消费者consumer通信原理讲解

No Silver Bullet

zookeeper 架构 dubbo 6月月更 InfoQ极客传媒15周年庆

何时使用 Django?与其他开发堆栈的比较

海拥(haiyong.site)

6月月更

C#入门系列(十二) -- 字符串

陈言必行

C# 6月月更

JavaScript闭包

大熊G

JavaScript 前端 6月月更

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章