50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:152969
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 598.3 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

生成式AI与ChatGPT:引领未来智能交互

百度开发者中心

#人工智能 文心一言

ChatGPT:生成式AI的新里程碑

百度开发者中心

#人工智能 ChatGPT 文心一言

Flink资源调度模型

腾讯云大数据

flink

使用 Feature Flags 与可观测工具实现数据库灰度迁移

观测云

数据库 可观测性

云堡垒机英语怎么翻译?它比硬件堡垒机便宜吗?

行云管家

云计算 堡垒机 云堡垒机

[OpenHarmony]稳定性专项运作知识地图,一张图带你稳过“万重山”

LAVAL社区小助手

OpenHarmony

[OpenHarmony]一文带你详解芯片--SL8541e-系统性能优化

LAVAL社区小助手

OpenHarmony

逻辑清晰,详解社交源码Android开发SDK

山东布谷网络科技

sdk

高性能MySQL实战(一):表结构 | 京东物流技术团队

京东科技开发者

数据库表 表结构设计 企业号 8 月 PK 榜 高性能表

Spring缓存是如何实现的?如何扩展使其支持过期删除功能? | 京东云技术团队

京东科技开发者

spring Spring Cache 企业号 8 月 PK 榜 spring缓存

解析BeanDefinitionRegistry与BeanDefinition合并

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

hbuilderx打包苹果证书获取步骤

ios开发 Windows证书 ios证书

生成式AI技术的应用与发展

百度开发者中心

文章 #人工智能 ChatGPT 文心一言

体育馆LED显示屏技术解决方案

Dylan

技术 系统 比赛 LED显示屏 体育

6步玩转OpenHarmony标准芯片适配

LAVAL社区小助手

OpenHarmony

浅谈Redis - 热点key问题 | 京东云技术团队

京东科技开发者

redis Redis 热点key 企业号 8 月 PK 榜

ChatGPT:引领未来智能交互的生成式AI

百度开发者中心

#人工智能 ChatGPT 文心一言

[OpenHarmony]效果差、不便捷、无接口,TV项目共建如何避开这些坑?

LAVAL社区小助手

OpenHarmony

大数据平台需要做等保测评吗?怎么做?

行云管家

大数据 等保 大数据平台 等级保护 等保测评

系统架构合理性的思考 | 京东云技术团队

京东科技开发者

架构设计 应用架构 企业号 8 月 PK 榜 架构合理性

ChatGPT:生成式AI引领科学革命

百度开发者中心

#人工智能 ChatGPT 文心一言

[OpenHarmony]手把手教你OTA升级开发

LAVAL社区小助手

OpenHarmony

ChatGPT:引领生成式AI的变革

百度开发者中心

#人工智能 ChatGPT 文心一言

解析大规模开发:提升企业级开发效率与质量,加速创新

龙智—DevSecOps解决方案

Atlassian Atlassian 云版 大规模开发

工时管理魔法课堂:如何在Jira中进行项目时间与成本管理?

龙智—DevSecOps解决方案

Jira插件 工时管理 jira工时

在代码世界游走,没几把“锁”防身可不行 | 京东云技术团队

京东科技开发者

分布式锁 java锁 java‘ 企业号 8 月 PK 榜

ChatGPT:生成式AI技术带来的变革

百度开发者中心

自动驾驶 #人工智能 文心一言

IntelliJ IDEA下基于Scala实现的Git检查工具

TiAmo

git IDEA IntelliJ IDEA 代码检查

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章