写点什么

滴滴开源自然语言理解模型训练平台 DELTA

  • 2019-08-05
  • 本文字数:1197 字

    阅读完需:约 4 分钟

滴滴开源自然语言理解模型训练平台DELTA

当地时间 7 月 28 日至 8 月 2 日,自然语言处理领域顶级会议 ACL2019 在意大利佛洛伦萨召开,会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台 DELTA,以进一步帮助 AI 开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力 NLP 应用更好落地。


自然语言处理模型和语音模型是很多 AI 系统与用户交互的接口,此次滴滴正式开源深度学习模型训练框架 DELTA,旨在进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。


DELTA 是滴滴第 22 个开源项目,主要基于 TensorFlow 构建,能同时支持 NLP(自然语言处理)和语音任务及数值型特征的训练。


据了解,滴滴在 NLP 和语音领域已有一定积累,希望借开源 DELTA 这个机会将自身能力开放,进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。同时 DELTA 专门针对工业界场景做了优化设计,填补了从算法模型到产品上线之间的空缺。


目前 DELTA 整合了包括文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等重要算法模型,形成一致的代码组织架构,整体包装统一接口。


用户只需要准备好模型训练数据,并指定好配置,模型训练 pipeline 就可以根据配置进行数据处理,并选择相应的任务和模型,进行模型训练。在训练结束之后,DELTA 会自动生成模型文件保存。该模型文件形成统一接口,可以直接上线使用,快速产品化,能让从研究到生产变得更容易。



DELTA 研发团队告诉 InfoQ 记者,NLP 和语音模型训练需要对数据做各种特征抽取和预处理,针对这一情况,团队优化了文本和语音特征和数据处理模块,将这一部分整合进整体模型框架之中,开发者只需提供数据,所有预处理和特征抽取可以由模型框架自动实现。另外,NLP 和语音更关注对序列的建模,DELTA 针对性地提供了大量序列的建模方法。


值得注意的是,除可支持多种模型的训练,DELTA 还支持灵活配置,开发者可基于 DELTA 搭建成多达几十种的复杂的模型;此外,DELTA 在多种常用任务上提供了稳定高效的 benchmark,用户可以简单快速的复现论文中的模型的结果,同时也可以在此基础上扩展新的模型。在模型构建完成后,用户可以使用 DELTA 的部署流程工具,迅速完成模型上线,实现从论文到产品部署无缝衔接。


目前业内还没有与 DELTA 完全一样的开源项目,业界的开源项目多用于研究目的,DELTA 是专注学术界和工业界级别的开源项目。此外,相较业界已有项目,DELTA 同时支持 NLP 和语音任务,也支持数值型特征的训练,及几种特征输入的联合多模态训练,这是实际应用中常见的场景,也是 DELTA 性能更加优越的地方。


目前 AI 开发者可登陆Github查看 DELTA 的详细介绍和源代码,利用 DELTA 加快实验进度,部署用于文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等任务的系统。用户亦可在滴滴开源平台上获取更多滴滴开源项目的相关信息。


2019-08-05 16:212682
用户头像
蔡芳芳 InfoQ 总编辑

发布了 819 篇内容, 共 606.6 次阅读, 收获喜欢 2821 次。

关注

评论

发布
暂无评论
发现更多内容

mysql经典 1 异步复制after sync和after commit

趁早

DBA福利来了!《YashanDB数据库概念手册》正式发布

极客天地

冲刺PCTA

TiDB 社区干货传送门

学习&认证&课程

记TiDB学习之路

TiDB 社区干货传送门

社区活动

TiDB Cloud x Datadog 集成案例

TiDB 社区干货传送门

应用适配

Kubernetes 审计日志采集与分析最佳实践

观测云

#k8s

北京测试开发高薪线下周末班,手把手带你提升职业技能

测试人

软件测试

“7”势如虹|突破集成边界,谷云科技成为iPaaS领头羊!

谷云科技RestCloud

周年

TiDB x KubeBlocks 集成案例

TiDB 社区干货传送门

管理与运维

【TiDB 社区升级互助材料】TiDB 版本升级最全材料包

TiDB 社区干货传送门

版本升级

6 大原则!助你构建高绩效的研发强军 | Liga译文

LigaAI

经验分享 研发团队 研发效能管理 高绩效团队 企业号 2024年5月 PK 榜

通过考证深入了解TiDB

TiDB 社区干货传送门

社区活动 数据库架构选型 学习&认证&课程

使用 TiDB Vector 搭建 RAG 应用 - TiDB 文档问答小助手

TiDB 社区干货传送门

版本测评 新版本/特性解读 数据库前沿趋势

AI Agent深度解析:潜力与挑战并存的智能新世界

可信AI进展

人工智能「

入围全球机器人顶会ICRA 2024!毫末在RoboDrive2024挑战赛崭露头角

极客天地

如何跨越 LangChain 应用研发的最后一公里

Jade@pluto-lang

IaC AWS CDK Cloud Native LLM langchain

交友网站系统平台搭建 语音社交app源码,语音聊天交友 社交app 婚恋交友专业开发

DUOKE七七

小程序源码 交友小程序

AI日报|谷歌发布Astra反击GPT-4o,字节发布9个自研大模型,腾讯混元开源文生图大模型...

可信AI进展

瞬间优化 ChatGPT 指令的 2 种方法

蓉蓉

GPT #人工智能 ChatGPT4

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

华为云开发者联盟

云原生 华为云 华为云开发者联盟 华为云CCE 企业号2024年5月PK榜

AI晚报|GPT-4o Omni金牌团队首揭秘!苹果将推出全新辅助功能,小米大模型MiLM正式通过备案...

可信AI进展

#人工智能

跨端自渲染绘制的实践与探索

京东零售技术

前端 React 企业号 5 月 PK 榜 跨端渲染 多端兼容

GPT搜索引擎原型曝光!新模型GPT4-Lite驱动,虽然鸽了发布会但代码已上传

Openlab_cosmoplat

滴滴开源自然语言理解模型训练平台DELTA_AI&大模型_蔡芳芳_InfoQ精选文章