写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:153007
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 602.6 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

从报表小白一秒升级为高手,Univer Go 这款免费的报表设计器模版有多厉害?

梦数技术团队

Python 数据库 Excel DeepSeek

富士胶片集团发布2024财年第三季度财务报告

财见

一个很有意思的面试失败案例

老张

面试经验 面试求职 职场认知

Ai.com指向DeepSeek:中国AI强势崛起,却遭遇2000多仿冒域名阻击

防火墙后吃泡面

macOS Sequoia 15.3.1 (24D70) Boot ISO 原版可引导镜像下载

sysin

sequoia

从0到1构建 Kubernetes中间件运维平台:标准化、可视化与全栈运维的最佳实践|得物技术

得物技术

运维 后端

KubeEdge春季带薪远程实习来了!2025年LFX Mentorship开启申请

华为云原生团队

云计算 容器 云原生

探索鸿蒙原生应用开发:借助 FinClip 跨端技术之旅

xuyinyin

在CAD中插入图块后为什么看不到?怎么解决?

在路上

cad cad看图 CAD看图王

DeepSeek本地化部署超简单,比装个office还简单

伤感汤姆布利柏

人工智能丨Deepseek vs 传统测试工具:谁将主导软件质量保障?

测试人

人工智能

天润融通已接入DeepSeek,大模型赋能客户服务,效率与体验双提升

天润融通

人工智能 DeepSeek

LibreOffice 25.2 (Linux, macOS, Windows) - 自由免费的全能办公套件

sysin

CAD使用教程:怎么在手机上插入CAD图块?

在路上

cad cad看图 CAD看图软件

征程 6 相比征程 5 对算子支持扩展的具体案例讲解

地平线开发者

自动驾驶 算法工具链 地平线征程6

Studio 3T 2025.2 (macOS, Linux, Windows) - MongoDB 的终极 GUI、IDE 和 客户端

sysin

Symantec Endpoint Protection 14.3 RU10 v14.3.12154.10000 下载

sysin

接入5家DeepSeek模型提供商!火山引擎边缘大模型网关助力一键畅享大模型

火山引擎边缘云

边缘计算 LLM #大模型 边缘智能 DeepSeek

DeepSeek本地化部署超简单,比装个office还简单

不在线第一只蜗牛

人工智能 DeepSeek

碳课堂|生物质能如何成为减排利器

AMT企源

能源 碳管理 节能减排

macOS Sonoma 14.7.4 (23H420) Boot ISO 原版可引导镜像下载

sysin

Sonoma

Zerto 10.0 Update 5 - 适用于本地、混合和多云环境的灾难恢复和数据保护

sysin

Zerto

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章