AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:152802
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 570.8 次阅读, 收获喜欢 1979 次。

关注

评论

发布
暂无评论
发现更多内容

大模型,开源干不掉闭源

脑极体

开源 大模型

什么是供应链金融?定义集

zhengzai7

金融科技 供应链金融

一文熟知存储 – 从磁盘到文件,到数据库,到分布式环境集中式存储,再到分布式数据库

邹志全

数据库 分布式事务 分布式系统

openGauss数据库源码解析系列文章——执行器解析(1.2)

daydayup

opengauss

Docker学习路线10:容器安全

小万哥

Java c++ Python Go Docker

openGauss数据库源码解析系列文章——执行器解析(2.1)

daydayup

opengauss

刘奇:经典数据库亟需跃迁,TiDB 不是“平替”

PingCAP

数据库 TiDB pingCAP

openGauss 5.0.0支持用户级全量审计解密

daydayup

opengauss

openGauss数据库源码解析系列文章——执行器解析(1.1)

daydayup

opengauss

openGauss数据库源码解析系列文章——执行器解析(1.3)

daydayup

opengauss

Nautilus Chain 主网上线,Zepoch 持有者将获第三轮 POSE 空投

股市老人

k8s+containerd安装

tiandizhiguai

k8s

倪光南院士在 PingCAP 用户峰会的现场致辞

PingCAP

数据库 TiDB pingCAP

云和恩墨大讲堂 x 长江鲲鹏 x openGauss Meetup(武汉站)圆满落幕!

daydayup

opengauss

C++使用VLD检测内存泄漏

芯动大师

openGauss数据库源码解析系列文章——执行器解析(2.2)

daydayup

opengauss

openGauss数据库源码解析系列文章——SQL引擎源码解析(1.1)

daydayup

opengauss

TE智库|《2023中国营销+AIGC市场研究报告》,解读首个被AIGC深度影响的场景

TE智库

Notion 的用户经济 :爱好者们传播 “第二大脑” 的理念

B Impact

Nautilus Chain 主网上线,Zepoch 持有者将获第三轮 POSE 空投

鳄鱼视界

如何理解 Next.js中的 SSR、CSR、SSG 、ISR以及DPR技术

汽车之家客户端前端团队

前端 SSR React服务端渲染原理

文心一言 VS 讯飞星火 VS chatgpt (65)-- 算法导论6.5 4题

福大大架构师每日一题

ChatGPT

Java 命令行参数解析方式探索(一):原始实现

冰心的小屋

Java 命令行 console command

Amazon Redshift Serverless – 现已正式推出新功能

亚马逊云科技 (Amazon Web Services)

Amazon

PingCAP 唐刘:携手中国用户,打造世界级产品

PingCAP

数据库 TiDB pingCAP

openGauss数据库源码解析系列文章——SQL引擎源码解析(1.2)

daydayup

opengauss

絮语2023

IT民工大叔

【SPS人物志】安艺:永不服输是电竞选手最大的魅力

极客天地

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章