正式定档!QCon 北京站改期为2024年4月11-13日,地点:北京·国测国际会议会展中心 >>> 了解详情
写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:152401
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 485.5 次阅读, 收获喜欢 1962 次。

关注

评论

发布
暂无评论
发现更多内容

如何通过ETLCloud的API对接功能实现各种SaaS平台数据对接

RestCloud

SaaS API ETL

大模型微调:适应新任务的强大工具

百度开发者中心

深度学习 大模型 Prompt

瑶池数据库Serverless+AI训练营开营啦,参营享千元好礼

阿里云瑶池数据库

数据库 Serverless 阿里云; 阿里云瑶池数据库

IPQ8074/IPQ8072 What's the performance difference?|8X8 4X4 High Performance 802.11ax Solution

wallyslilly

IPQ8072 IPQ8074

万界星空科技铜线MES、漆包线MES系统

万界星空科技

生产管理系统 智能制造 mes 漆包线mes 铜线mes

法线贴图实现地形模型皱褶、凹凸不平的纹理效果

3D建模设计

3D渲染 材质纹理贴图

开放原子开发者大会 | 开源就是国际化,华为大力推动开源社区建设

新消费日报

CQ 社区版 V2.7.0 发布 | 数据源版本扩充、新增批量执行功能等

BinTools图尔兹

数据库 运维 数据安全 dba 数据库管理

解析$nextTick魔力,为啥大家都爱它?

京东科技开发者

测试用例设计方法六脉神剑——第六剑:心法至简,百家之长集成

京东科技开发者

得物商家域精准测试实践

得物技术

测试

软件测试/测试开发 | 测试开发线下高薪私教班助力你的职场晋升

测试人

人工智能 软件测试

云原生技术:实践探索与未来展望

不会算法。

只需一个bitget钱包,让你的web3体验翻倍

威廉META

万界星空MES系统的十大核心功能

万界星空科技

数字化转型 MES系统 智能制造 mes 万界星空科技mes

Mac电脑文献管理推荐 EndNote 21激活最新版

胖墩儿不胖y

Mac软件 文献管理工具 文献工具

如何将 Python 项目打包成 exe,另带卸载功能!

北桥苏

Python GUI pyinstaller tkinter Inno Setup Compiler

Fine-Tuning: 精调大模型训练的关键步骤

百度开发者中心

大模型

法线贴图实现衣服上皱褶特效

3D建模设计

3D渲染 材质纹理体贴 3D材质编辑

高效GO语言集成开发工具 GoLand 2023 注册码中文版

mac大玩家j

代码编辑器 Mac软件 语言开发工具

DxO PureRAW for Mac v3.8.0中文激活版(RAW照片处理器)

影影绰绰一往直前

GLTF/GLB模型在线预览、编辑、动画查看以及材质修改

3D建模设计

3D渲染 材质纹理贴图 3D材质编辑

京东商品评论数据接口(JD.item_review)

tbapi

京东API接口 京东商品评论接口 京东商品评论内容接口 京东评论API接口

一分钟带你了解人工神经网络(ANN)

小齐写代码

个人年度总结:大模型驱动技术的趋势洞察

Geek-yan

只需一个bitget钱包,让你的web3体验翻倍

鳄鱼视界

软件测试/测试开发丨名企私教服务加盟全栈开发与自动化测试班

测试人

人工智能 软件测试

科学启智,AI赋能:AI for Science塑造多学科研究新范式

飞桨PaddlePaddle

人工智能 开发者 AI for Science WAVE SUMMIT

XSKY SDS V6.3 版本发布:持续强化非结构化存储和管理能力

XSKY星辰天合

《环太平洋》流浪者机甲3D模型特效还原

3D建模设计

3D渲染 材质纹理贴图 3D材质编辑

人工智能与测试开发自动化沙龙(PPT和回放集锦)

霍格沃兹测试开发学社

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章