写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:152988
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 600.8 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

2023 最新版 Java 面试八股文大全 PDF 版限时分享,含 700 道高频面试题

三十而立

TypeScript Module

程序员海军

三周年连更

重构这件“小”事儿 | 得物技术

得物技术

ARB链挖矿dapp系统开发模式定制

开发v-hkkf5566

Tuxera NTFS2024免费版NTFS磁盘读写软件

茶色酒

Tuxera NTFS2024

各行业常见的业务指标汇总(数据分析常用数据指标)

Data 探险实验室

数据分析 数据分析师 数据指标 指标中台; 数据分析 指标洞察

新手如何学好Zbrush3D建模?

Finovy Cloud

3D软件

【Python实战】Python对中国500强排行榜数据进行可视化分析

BROKEN

三周年连更

ChatGPT辅助编写自动化测试

QE_LAB

单元测试 自动化测试 接口测试 测试技术 ChatGPT

【已结束】直播预告|传统 PvE 游戏 ∕ 开房间 PvP 游戏的云原生架构升级

阿里巴巴云原生

阿里云 云原生 游戏

使用 Kubectl Patch 命令更新资源

Se7en

云原生

基于深度学习框架设计的货运管家(功能总结)

DS小龙哥

三周年连更

CorelDRAW2023发布!详解七大新功能

茶色酒

CorelDraw2023

Cloud Kernel SIG月度动态:发布 Anolis 8.8 镜像、kABI 社区共建流程

OpenAnolis小助手

镜像 龙蜥社区 sig kernel 月报

活动回顾|微服务x容器开源开发者 Meetup 成都站回放 & PPT 下载

阿里巴巴云原生

阿里云 开源 容器 微服务 云原生

基于容器平台 ACK 快速搭建 Stable Diffusion

阿里巴巴云原生

阿里云 云原生 容器服务

今天,飞桨公众号六岁啦!

飞桨PaddlePaddle

飞桨PaddlePaddle

2023年3月用户体验GX评测:国有行及股份行持续领跑,城商行及农商行农信社积极探索实践用户体验体系搭建

易观分析

金融 银行

CDR2023最新中文版下载安装详细教程

茶色酒

cdr2023

Docgeni 2.1 正式发布

PingCode研发中心

软件开发 Docgeni

为什么医疗保健需要MFT来帮助保护EHR文件传输

镭速

预训练对话大模型深度解读

轻口味

AI 大模型 三周年连更

当⻉借⼒阿⾥云落地云原⽣架构转型,运维降本、效率稳定性双升

阿里巴巴云原生

阿里云 云原生 云原生架构

算法刷题-移除元素、分数到小数、整数转罗马数字

共饮一杯无

数据结构 算法 三周年连更

直播预告 | 字节跳动云原生大数据分析引擎 ByConity 与 ClickHouse 有何差异?

墨天轮

大数据 字节跳动 Clickhouse 数仓

Django笔记十五之in查询及date日期相关过滤操作

Hunter熊

Python django 日期

架构误区系列16:不可靠的幂等

agnostic

幂等设计

iMazing软件最新版有哪些新功能?

茶色酒

imazing

Sibelius2023免费版音乐制谱软件

茶色酒

Sibelius2023

CorelDRAW Graphics Suite2023最新中文版下载

茶色酒

cdr2023

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章