“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

滴滴开源自然语言理解模型训练平台 DELTA

  • 2019-08-05
  • 本文字数:1197 字

    阅读完需:约 4 分钟

滴滴开源自然语言理解模型训练平台DELTA

当地时间 7 月 28 日至 8 月 2 日,自然语言处理领域顶级会议 ACL2019 在意大利佛洛伦萨召开,会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台 DELTA,以进一步帮助 AI 开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力 NLP 应用更好落地。


自然语言处理模型和语音模型是很多 AI 系统与用户交互的接口,此次滴滴正式开源深度学习模型训练框架 DELTA,旨在进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。


DELTA 是滴滴第 22 个开源项目,主要基于 TensorFlow 构建,能同时支持 NLP(自然语言处理)和语音任务及数值型特征的训练。


据了解,滴滴在 NLP 和语音领域已有一定积累,希望借开源 DELTA 这个机会将自身能力开放,进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。同时 DELTA 专门针对工业界场景做了优化设计,填补了从算法模型到产品上线之间的空缺。


目前 DELTA 整合了包括文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等重要算法模型,形成一致的代码组织架构,整体包装统一接口。


用户只需要准备好模型训练数据,并指定好配置,模型训练 pipeline 就可以根据配置进行数据处理,并选择相应的任务和模型,进行模型训练。在训练结束之后,DELTA 会自动生成模型文件保存。该模型文件形成统一接口,可以直接上线使用,快速产品化,能让从研究到生产变得更容易。



DELTA 研发团队告诉 InfoQ 记者,NLP 和语音模型训练需要对数据做各种特征抽取和预处理,针对这一情况,团队优化了文本和语音特征和数据处理模块,将这一部分整合进整体模型框架之中,开发者只需提供数据,所有预处理和特征抽取可以由模型框架自动实现。另外,NLP 和语音更关注对序列的建模,DELTA 针对性地提供了大量序列的建模方法。


值得注意的是,除可支持多种模型的训练,DELTA 还支持灵活配置,开发者可基于 DELTA 搭建成多达几十种的复杂的模型;此外,DELTA 在多种常用任务上提供了稳定高效的 benchmark,用户可以简单快速的复现论文中的模型的结果,同时也可以在此基础上扩展新的模型。在模型构建完成后,用户可以使用 DELTA 的部署流程工具,迅速完成模型上线,实现从论文到产品部署无缝衔接。


目前业内还没有与 DELTA 完全一样的开源项目,业界的开源项目多用于研究目的,DELTA 是专注学术界和工业界级别的开源项目。此外,相较业界已有项目,DELTA 同时支持 NLP 和语音任务,也支持数值型特征的训练,及几种特征输入的联合多模态训练,这是实际应用中常见的场景,也是 DELTA 性能更加优越的地方。


目前 AI 开发者可登陆Github查看 DELTA 的详细介绍和源代码,利用 DELTA 加快实验进度,部署用于文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等任务的系统。用户亦可在滴滴开源平台上获取更多滴滴开源项目的相关信息。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-08-05 16:212406
用户头像
蔡芳芳 InfoQ主编

发布了 778 篇内容, 共 488.4 次阅读, 收获喜欢 2745 次。

关注

评论

发布
暂无评论
发现更多内容

O-Star|再相识

MatrixOrigin

云原生数据库 MatrixOrigin MatrixOne 超融合数据库 HTAP数据库

Kubernetes Gateway API 攻略:解锁集群流量服务新维度!

EquatorCoco

服务器集群 kubernetes 运维 API 文档

为什么Go是后端开发的未来

这我可不懂

Go 语言

透明LED电子大屏幕在商显市场中的应用与创新

Dylan

节能 LED 图像清晰度处理

大模型训练的GPU加速混合精度训练方案

百度开发者中心

gpu 大模型

NLP领域预训练模型的发展方向

百度开发者中心

人工智能 nlp 大模型

百度搜索万亿规模特征计算系统实践

百度Geek说

Python 数据库 百度搜索 企业号11月PK榜

JixiPix PuzziPix Pro for mac(专业拼图软件)v1.0.18永久激活版

mac

苹果mac Windows软件 PuzziPix Pro 图片拼图工具

这么有趣的ts类型,不看真的会后悔!

秃头小帅oi

众包平台,解锁自由职业者的灵活空间

知者如C

Linux 安装jdk

javaNice

Linux jdk

面试官:如何实现微服务全链路灰度发布?

树上有只程序猿

微服务 灰度发布

Wireshark的数据包它来啦!

小魏写代码

🔥🔥Java开发者的Python快速进修指南:函数进阶

EquatorCoco

Java Python 开发 函数式

InnoDB和MyISAM存储引擎对比

javaNice

MySQL

DAPP代币燃烧质押挖矿系统开发

l8l259l3365

MySQL索引结构演变历史

javaNice

MySQL

大模型训练全新升级,训练步骤大幅缩短

百度开发者中心

人工智能 深度学习 大模型

从互联网到云计算再到 AI 原生,百度智能云数据库的演进

Baidu AICLOUD

redis 分布式数据库 云原生数据库

软件测试/人工智能丨人工智能取代软件测试团队

测试人

人工智能 软件测试

学生开发者勇担青年使命,用AI守护少数人的“视界”

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 先锋开发者云上说 华为开发者大赛

专业raw图像处理工具:DxO PhotoLab 7中文版

彩云

图像处理工具 DxO PhotoLab 7

Tipard FixMP4 for Mac 视频修复工具

彩云

视频修复 Tipard FixMP4

深入探索 perf CPU Profiling 实现原理

swordholder

Linux Performance perf kernel

用二维码进行人员管理,人员信息一目了然

草料二维码

二维码 草料二维码

Atlassian午餐会直播回顾:如何拓展Jira工作流,加强团队协作?

龙智—DevSecOps解决方案

Jira

Atlassian发布最新补贴政策,Jira/Confluence迁移上云最低可至零成本

龙智—DevSecOps解决方案

Jira Confluence Jira Service Management

使用Unity的游戏开发团队如何选择版本控制工具?20家头部3A游戏开发工作室中有19家选择Perforce Helix Core

龙智—DevSecOps解决方案

版本控制 Helix Core

软件测试/人工智能丨视觉与图像识别在自动化测试领域的应用

测试人

人工智能 软件测试

选择Amazon EC2,走进云端新时代

YoLo

服务器

轻量级小程序前端架构的基本特性

Geek_2305a8

滴滴开源自然语言理解模型训练平台DELTA_AI&大模型_蔡芳芳_InfoQ精选文章