写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:153045
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 607.5 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

UI 自动化中的分层设计

霍格沃兹测试开发学社

IDC发布《2022中国大模型发展白皮书》,文心大模型能力全面领先

飞桨PaddlePaddle

大模型 文心

Migrate your data into databend with DataX

Databend

房产|1月全国70城房价出炉!疫情放开后你关心的城市房价有何变化

前嗅大数据

大数据 数据分析 房产

多云和混合云场景下的 API 管理:挑战与选择

API7.ai 技术团队

api 网关 APISIX

参加java培训学习怎么样

小谷哥

Web前端开发最好用的几个WebGL框架

2D3D前端可视化开发

JavaScript 前端开发 WebGL webgl框架

关于工具软件:Apipost和Apifox哪个更好用看这篇就够了

代码没有BUG

Apifox 接口调试 API测试 apipost

接口调试时如何请求一个需要登录才能访问的接口

代码没有BUG

接口调试 API测试 apipost

一款好的低代码开发平台应该是什么样?

YonBuilder低代码开发平台

软件测试 | 参数化测试用例的使用

测吧(北京)科技有限公司

测试

测试开发之路--UI 自动化常用设计模式

霍格沃兹测试开发学社

测试开发之路--UI 自动化常用设计模式 (二)

霍格沃兹测试开发学社

Python+Opencv读取高帧率USB摄像头问题

Python 数据读取 摄像头

渲染农场优势是什么_云渲染农场怎么用?

Renderbus瑞云渲染农场

云渲染 云渲染农场 Renderbus云渲染农场

【Unity 3D游戏开发】在Unity使用NoSQL数据库方法介绍

3DCAT实时渲染

Unity Unity3D 游戏开发引擎

虚幻引擎UE4如何实现打包后播放片头?其实超简单!

3DCAT实时渲染

虚幻引擎 ue

实力见“证”:Tapdata 技术创新与发展潜力广受认可

tapdata

零基础学习前端培训需要多久

小谷哥

使用大恒USB工业相机PythonSDK进行逐帧率图片采集

Python 数据采集 摄像头 大恒SDK

软件测试 | 属性获取与断言

测吧(北京)科技有限公司

测试

软件测试 | Capability使用进阶

测吧(北京)科技有限公司

测试

避坑指南|监控宝网站监控的常见问题及解决方法

云智慧AIOps社区

监控 告警 监控宝 监控告警 监控指标

大数据培训需要注意哪些方面

小谷哥

热点面试题: 常用位运算方法

Immerse

JavaScript 前端面试题 #热点问题 前端javascript

Python获取磁盘、文件夹大小信息(附邮件发送)(二)

Python 文件夹数据获取

分享7个刺激的老司机网站,别轻易点开

引迈信息

程序员 面试 前端 摸鱼

Tapdata Connector 实用指南:数据入仓场景之数据实时同步到 BigQuery

tapdata

测试开发之路--UI 自动化设计军规

霍格沃兹测试开发学社

Python获取磁盘、文件夹大小信息(一)

Python 文件夹数据获取

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章