写点什么

滴滴开源自然语言理解模型训练平台 DELTA

  • 2019-08-05
  • 本文字数:1197 字

    阅读完需:约 4 分钟

滴滴开源自然语言理解模型训练平台DELTA

当地时间 7 月 28 日至 8 月 2 日,自然语言处理领域顶级会议 ACL2019 在意大利佛洛伦萨召开,会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台 DELTA,以进一步帮助 AI 开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力 NLP 应用更好落地。


自然语言处理模型和语音模型是很多 AI 系统与用户交互的接口,此次滴滴正式开源深度学习模型训练框架 DELTA,旨在进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。


DELTA 是滴滴第 22 个开源项目,主要基于 TensorFlow 构建,能同时支持 NLP(自然语言处理)和语音任务及数值型特征的训练。


据了解,滴滴在 NLP 和语音领域已有一定积累,希望借开源 DELTA 这个机会将自身能力开放,进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。同时 DELTA 专门针对工业界场景做了优化设计,填补了从算法模型到产品上线之间的空缺。


目前 DELTA 整合了包括文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等重要算法模型,形成一致的代码组织架构,整体包装统一接口。


用户只需要准备好模型训练数据,并指定好配置,模型训练 pipeline 就可以根据配置进行数据处理,并选择相应的任务和模型,进行模型训练。在训练结束之后,DELTA 会自动生成模型文件保存。该模型文件形成统一接口,可以直接上线使用,快速产品化,能让从研究到生产变得更容易。



DELTA 研发团队告诉 InfoQ 记者,NLP 和语音模型训练需要对数据做各种特征抽取和预处理,针对这一情况,团队优化了文本和语音特征和数据处理模块,将这一部分整合进整体模型框架之中,开发者只需提供数据,所有预处理和特征抽取可以由模型框架自动实现。另外,NLP 和语音更关注对序列的建模,DELTA 针对性地提供了大量序列的建模方法。


值得注意的是,除可支持多种模型的训练,DELTA 还支持灵活配置,开发者可基于 DELTA 搭建成多达几十种的复杂的模型;此外,DELTA 在多种常用任务上提供了稳定高效的 benchmark,用户可以简单快速的复现论文中的模型的结果,同时也可以在此基础上扩展新的模型。在模型构建完成后,用户可以使用 DELTA 的部署流程工具,迅速完成模型上线,实现从论文到产品部署无缝衔接。


目前业内还没有与 DELTA 完全一样的开源项目,业界的开源项目多用于研究目的,DELTA 是专注学术界和工业界级别的开源项目。此外,相较业界已有项目,DELTA 同时支持 NLP 和语音任务,也支持数值型特征的训练,及几种特征输入的联合多模态训练,这是实际应用中常见的场景,也是 DELTA 性能更加优越的地方。


目前 AI 开发者可登陆Github查看 DELTA 的详细介绍和源代码,利用 DELTA 加快实验进度,部署用于文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等任务的系统。用户亦可在滴滴开源平台上获取更多滴滴开源项目的相关信息。


2019-08-05 16:212764
用户头像
蔡芳芳 InfoQ 总编辑

发布了 849 篇内容, 共 623.6 次阅读, 收获喜欢 2824 次。

关注

评论

发布
暂无评论
发现更多内容

当代企业的数字安全,能“脆皮”到什么程度?

白洞计划

AI

Photoshop 2024 (ps)使用技巧 ps2024mac中文破解版

Rose

Photoshop 2024破解版 Photoshop 2024直装版 ps使用技巧

为什么现在的低代码平台大多被抵制?

代码生成器研究

编程 程序员 低代码 代码

为什么Facebook运营需使用IP代理?有哪些美国IP代理好用?

Geek_bf375d

C++ IDE:最适合 C++ 初学者的 IDE 是什么?

ide 初学者 C++

腾讯云的云上容灾实践

腾讯云混沌演练平台

容灾

LeetCode题解:2. 两数相加,递归,JavaScript,详细注释

Lee Chen

JavaScript LeetCode

一些有趣的迹象:“前端已死”难道要成真了?

伤感汤姆布利柏

程序员 Vue 前端

2023如何搭建优质独享美国IP?美国静态住宅代理IP哪里有?

Geek_bf375d

外贸必看|Kakao账号如何注册使用?如何实现Kakao多开?

Geek_bf375d

锂离子电池充电管理芯片应用

芯动大师

学习Python过程中容易遇到的问题及其解决办法

Geek_7d9e0b

#python

大会技术“硬核”资讯来啦!点击预约 IoTDB 现场一对一调优咨询服务

Apache IoTDB

软件测试/人工智能|一文告诉你ChatGPT原理与架构

霍格沃兹测试开发学社

亚马逊云 EC2 的网络详解

孤虹

亚马逊云 EC2

亚马逊云EC2的监控

孤虹

亚马逊云 EC2

兼容Intel和Apple Silicon芯片Parallels Desktop 19虚拟机一键激活版

Rose

Mac虚拟机下载 Parallels Desktop 19 PD19虚拟机破解版 Parallels正版密钥

Android File Transfer for Mac:轻松实现手机与电脑之间的文件传输

Rose

Android File Transfer mac与安卓同步 安卓数据传输 MacDroid pro

ps 2023 mac配置要求 Photoshop2023中文破解版 支持M

Rose

Photoshop 2023下载 Photoshop 2023中文版 ps 2023储存黑屏 PS2023最新版

解锁编程潜能:探索亚马逊CodeWhisperer,打造编程世界的声音引导者

熬夜磕代码、

亚马逊云科技

软件测试/人工智能|利用ChatGPT进行项目需求分析

霍格沃兹测试开发学社

朝夕光年「红砖」搭建平台架构设计和应用落地

字节跳动技术范儿

Databend 源码阅读: Storage 概况和 Read Partitions

Databend

ClickHouse联合创始人、前Google副总裁Yury到访杭州玖章算术公司,双方建立生态合作

NineData

Clickhouse 数据复制 合作伙伴 SQL开发 NineData

适用于M1 /M2 Mac的office365办公软件 Microsoft 365破解版下载

Rose

Microsoft 365 office许可证 office 365

为什么我认为开源低代码平台不可靠?

代码生成器研究

开源 程序员 互联网 低代码

SQL(Structured Query Language)简介和常见 SQL 命令示例

小万哥

MySQL 数据库 sql 程序员 后端

用Mac做视频剪辑就用fcpx剪辑,Final Cut Pro中文下载

Rose

Final Cut Pro中文版 Final Cut Pro破解版 fcpx 视频剪辑Mac版 fcpx剪辑

软件测试/人工智能|教你如何更高效地使用AI对话工具

霍格沃兹测试开发学社

AnyGo使用教程 AnyGo中文下载安装 支持M1/M2

Rose

GPS Mac软件 AnyGo下载 AnyGo中文版

滴滴开源自然语言理解模型训练平台DELTA_AI&大模型_蔡芳芳_InfoQ精选文章