写点什么

滴滴开源自然语言理解模型训练平台 DELTA

  • 2019-08-05
  • 本文字数:1197 字

    阅读完需:约 4 分钟

滴滴开源自然语言理解模型训练平台DELTA

当地时间 7 月 28 日至 8 月 2 日,自然语言处理领域顶级会议 ACL2019 在意大利佛洛伦萨召开,会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台 DELTA,以进一步帮助 AI 开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力 NLP 应用更好落地。


自然语言处理模型和语音模型是很多 AI 系统与用户交互的接口,此次滴滴正式开源深度学习模型训练框架 DELTA,旨在进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。


DELTA 是滴滴第 22 个开源项目,主要基于 TensorFlow 构建,能同时支持 NLP(自然语言处理)和语音任务及数值型特征的训练。


据了解,滴滴在 NLP 和语音领域已有一定积累,希望借开源 DELTA 这个机会将自身能力开放,进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。同时 DELTA 专门针对工业界场景做了优化设计,填补了从算法模型到产品上线之间的空缺。


目前 DELTA 整合了包括文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等重要算法模型,形成一致的代码组织架构,整体包装统一接口。


用户只需要准备好模型训练数据,并指定好配置,模型训练 pipeline 就可以根据配置进行数据处理,并选择相应的任务和模型,进行模型训练。在训练结束之后,DELTA 会自动生成模型文件保存。该模型文件形成统一接口,可以直接上线使用,快速产品化,能让从研究到生产变得更容易。



DELTA 研发团队告诉 InfoQ 记者,NLP 和语音模型训练需要对数据做各种特征抽取和预处理,针对这一情况,团队优化了文本和语音特征和数据处理模块,将这一部分整合进整体模型框架之中,开发者只需提供数据,所有预处理和特征抽取可以由模型框架自动实现。另外,NLP 和语音更关注对序列的建模,DELTA 针对性地提供了大量序列的建模方法。


值得注意的是,除可支持多种模型的训练,DELTA 还支持灵活配置,开发者可基于 DELTA 搭建成多达几十种的复杂的模型;此外,DELTA 在多种常用任务上提供了稳定高效的 benchmark,用户可以简单快速的复现论文中的模型的结果,同时也可以在此基础上扩展新的模型。在模型构建完成后,用户可以使用 DELTA 的部署流程工具,迅速完成模型上线,实现从论文到产品部署无缝衔接。


目前业内还没有与 DELTA 完全一样的开源项目,业界的开源项目多用于研究目的,DELTA 是专注学术界和工业界级别的开源项目。此外,相较业界已有项目,DELTA 同时支持 NLP 和语音任务,也支持数值型特征的训练,及几种特征输入的联合多模态训练,这是实际应用中常见的场景,也是 DELTA 性能更加优越的地方。


目前 AI 开发者可登陆Github查看 DELTA 的详细介绍和源代码,利用 DELTA 加快实验进度,部署用于文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等任务的系统。用户亦可在滴滴开源平台上获取更多滴滴开源项目的相关信息。


2019-08-05 16:212731
用户头像
蔡芳芳 InfoQ 总编辑

发布了 819 篇内容, 共 618.7 次阅读, 收获喜欢 2823 次。

关注

评论

发布
暂无评论
发现更多内容

非凸科技钻石赞助第四届Rust China Conf 2024

非凸科技

金蝶云·苍穹OEM版产品正式发布!AI时代共创软件产业新质生产力

金蝶云·苍穹

金蝶 生态伙伴 金蝶云苍穹

喜报 | 博睿数据荣获“绿色领导力董秘标杆之星”、“信息技术服务创新标杆之星”

博睿数据

NocoBase 与 NocoDB:开源无代码工具深度对比

NocoBase

开源 低代码 无代码开发 低代码开发 无代码

人工智能 | ChatGPT 插件开发

测吧(北京)科技有限公司

测试

火山引擎VeDI核心产品DataTester再进化,A/B大模型应用评测功能上线

字节跳动数据平台

大数据 A/B 测试 对比实验 数字化增长

几张图带你了解TiDB架构演进

TiDB 社区干货传送门

版本升级

Serverless 安全新杀器:云安全中心护航容器安全

阿里巴巴云原生

阿里云 Serverless 云原生

How to Add a Built-in Function to TiDB Using a Cursor in 20 Minutes

TiDB 社区干货传送门

TiDB 源码解读

是什么让 TiDB 从一款中国受欢迎的数据库产品在短短几年内成为全球受欢迎的数据库产品?

TiDB 社区干货传送门

全球布局、极速集成:IMkit搭建全面、快捷、安全的聊天应用

ZEGO即构

人工智能 即时通讯 IM UIKits imkit

手工转测试开发轻松实现薪资 50%涨幅的逆袭之路

测吧(北京)科技有限公司

测试

SQL 中 Drop、Delete 与 Truncate 的区别

Chat2DB

数据库 开源 AI sql

MySQL 扛不住了,来试试这款平替的“国产化改造”必入手的国产数据库吧!

TiDB 社区干货传送门

万界星空科技MES系统如何实现设备数据集成

万界星空科技

数据采集 mes 设备管理 万界星空科技

《黑神话:悟空》真的带火云电脑了吗?

脑极体

AI

关于新版本 tidb dashboard API 调用说明

TiDB 社区干货传送门

集群管理 管理与运维 故障排查/诊断 新版本/特性解读 7.x 实践

K1计划100%收购 MariaDB; TDSQL成为腾讯云核心战略产品; Oracle@AWS/Google/Azure发布

NineData

oracle 腾讯云 MariaDB tdsql K1

超级驾趣学院 长安马自达MAZDA EZ-6驾驭全场景出行

极客天地

参与“2024,我想和 TDengine 谈谈”有奖征文活动,赢 AirPods

TDengine

数据库 tdengine 时序数据库

支付宝携手HarmonyOS SDK打造高效便捷的扫码支付体验

HarmonyOS SDK

HarmonyOS

2024 医疗 Datathon 又叕来啦~!“理-工-医-信”跨学科联合科研,以数据驱动医疗实践

ModelWhale

R 语言 datathon 医疗大数据

一文说清楚数据集成中的流处理与批处理的区别

谷云科技RestCloud

Apache 数据处理 批处理 ETL 流处理

mes系统在新材料行业中的应用价值

万界星空科技

mes 万界星空科技 生产管理MES系统 新材料mes 新材料行业

对比传统数据库,TiDB 强在哪?谈谈 TiDB 的适应场景和产品能力

TiDB 社区干货传送门

TiDB在 G7 的实践和未来

TiDB 社区干货传送门

TiDB 数据库核心原理与架构_Lesson 01 TiDB 数据库架构概述课程整理

TiDB 社区干货传送门

TiDB 底层架构

品牌未来式,增长进行时|2024凯度BrandZ中国品牌盛典回顾

财见

滴滴开源自然语言理解模型训练平台DELTA_AI&大模型_蔡芳芳_InfoQ精选文章