写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:152797
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 570.0 次阅读, 收获喜欢 1979 次。

关注

评论

发布
暂无评论
发现更多内容

[干货]设计模式:六种单例的创建方式,外加一大波Android进阶架构师资料分享

android 程序员 移动开发

XTableView:一个带侧滑菜单的二维表格控件,kotlin高阶函数源码讲解

android 程序员 移动开发

积跬步至千里:QUIC 协议在蚂蚁集团落地之综述

阿里巴巴终端技术

网络协议 移动端 客户端 QUIC协议

zookeeper原理篇-Zookeeper启动流程分析,2021大厂Android面试最火问题

android 程序员 移动开发

《Linux一学就会》第一章第一节:学习环境搭建

侠盗安全

Linux linux运维 云计算架构师

zookeeper开山篇-编译安装与zk基础命令使用(1),android综合面试

android 程序员 移动开发

WMRouter:美团外卖Android开源路由框架,2021年Android高级面试题

android 程序员 移动开发

阿里大佬倾情力荐:Java全线成长宝典,从P5到P8一应俱全

Java MySQL 编程 程序员

[Android]使用函数指针实现native层异步回调,鸿蒙app开发工具

android 程序员 移动开发

TCP粘包半包问题和解决,android实战开发-天气预报PPT

android 程序员 移动开发

zookeeper开山篇-编译安装与zk基础命令使用,实战篇

android 程序员 移动开发

ViewPager中使用Fragment时防止数据预加载,腾讯架构师深入讲解Android开发

android 程序员 移动开发

ViewPager(二),android移动应用开发教程

android 程序员 移动开发

volatile关键字在Android中到底有什么用?,零基础入门android

android 程序员 移动开发

阿里内部热捧“Spring全线笔记”,不止是全家桶,太完整了

Java spring 程序员 springmvc springboot

华为云数据库限量秒杀11.11元/年,错过再等一年!

华为云数据库小助手

GaussDB 优惠券 华为云数据库

zookeeper使用篇-Zookeeper Api实践,从入门到真香

android 程序员 移动开发

Tomcat体系架构,2021吊打面试官系列

android 程序员 移动开发

ViewDragHelper之手势操作神器,vue数据双向绑定

android 程序员 移动开发

[正确]的使用Kotlin Flow进行搜索优化,移动端开发技术路线

android 程序员 移动开发

View,2018android面试题

android 程序员 移动开发

Weex原理之带你去蹲坑(1),androidui开发工具

android 程序员 移动开发

WiFi配网~智能家居配网解决方案,腾讯T3大牛总结

android 程序员 移动开发

[Android-Gradle]-搞定Groovy闭包这一篇就够了,android编程权威指南

android 程序员 移动开发

VirtualAPK 详解和使用,网易云的朋友给我这份339页的Android面经

android 程序员 移动开发

WebView交互架构项目实战(三),阿里P7亲自教你

android 程序员 移动开发

WebP 探寻之路,kotlin环境搭建

android 程序员 移动开发

Weex原理之带你去蹲坑,kotlin参数默认值

android 程序员 移动开发

WorkManager完全解析+重构轮询系统,android事件分发机制面试

android 程序员 移动开发

ViewPager翻页特效(2_特效关键代码),android混合开发专利

android 程序员 移动开发

View系列:硬件加速,安卓面试项目

android 程序员 移动开发

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章