写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:152852
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 579.0 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

全面解析湖仓一体与大数据演进历程|内含技术工具选型策略

云智慧AIOps社区

数据库 大数据 数据湖 Clickhouse 大数据运维

网易数帆大数据场景下的DataOps实践

网易数帆

大数据 数据治理 DataOps

容器化 | 在 KubeSphere 中部署 MySQL 集群

RadonDB

MySQL 数据库 高可用 RadonDB KubeSphere

我提交了一个 pr,竟然是为了吃

AlwaysBeta

GitHub 开源 程序员 生活 程序员人生

快上车!第十七届全国大学生智能汽车竞赛百度创意组来啦

百度大脑

如何更好的使用TypeScript

Tone荣

前端 js ts js 转 ts

web前端开发Nodejs的C++ 拓展开发_前端培训

@零度

node.js 前端开发

原生JavaScript灵魂拷问,你能答上多少(一)

战场小包

JavaScript 前端 2月月更

java培训:Netty的内存管理

@零度

Java Netty

微服务从代码到k8s部署应有尽有系列(三、鉴权)

万俊峰Kevin

微服务 web开发 鉴权 go-zero Go 语言

ESLint-源码分析

Tone荣

前端 eslint

等保2.0政策之物联网安全扩展要求包括哪四个?

行云管家

云计算 物联网 等保 等保2.0 扩展要求

堡垒机哪家好?贵不贵?作用是什么?

行云管家

堡垒机 等级保护 过等保 等保2.0

互联网应用开发如何搭上AI的快车?来厦门开发者Meetup一探究竟

百度大脑

外包学生管理系统架构设计文档

Geek_36cc7c

Flow vs Jenkins 实操对比,如何将Java应用快速发布至ECS

阿里云云效

Java 阿里云 cicd 云原生 ECS

震坤行工业超市研发效能提升之路

阿里云云效

云计算 阿里云 DevOps 云原生 研发

手把手教学电瓶车进电梯检测、多类别车辆追踪、异常行为检测产业级应用

百度大脑

Flink 新一代流计算和容错——阶段总结和展望

Apache Flink

大数据 flink 开源 编程 实时计算

向工程腐化开炮 | manifest治理

阿里巴巴终端技术

App 客户端开发 腐化治理 manifest

MongoDB在信息资源共享建设的应用实践

MongoDB中文社区

mongodb

如何应对数千微服务组件带来的挑战?

云智慧AIOps社区

php 架构 微服务 微服务架构 运维

低代码实现探索(三十三)前端脚本公式

零道云-混合式低代码平台

MongoDB 数据实时同步利器-Tapdata Cloud 免费上手指南

MongoDB中文社区

mongodb

StarRocks Contributor 人数破百!极速统一,你我协力!

StarRocks

数据库 数据分析 StarRocks

网站开发进阶(六十二)最强大的 CSS 布局——Grid 布局

No Silver Bullet

页面布局 2月月更 Grid

Kaggle冠军解读:风电场短期风况预测任务方案

百度大脑

掉入成功的深渊

Shinta

中国 PostgreSQL 分会加入龙蜥社区,携手共建基础软件开源新生态

OpenAnolis小助手

postgresql Linux 开源

Go学习笔记——复合数据类型

为自己带盐

Go 学习笔记 2月月更

网络标准之:永远是1.0版本的MIME

程序那些事

Java 网络协议 程序那些事 2月月更

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章