写点什么

滴滴开源自然语言理解模型训练平台 DELTA

  • 2019-08-05
  • 本文字数:1197 字

    阅读完需:约 4 分钟

滴滴开源自然语言理解模型训练平台DELTA

当地时间 7 月 28 日至 8 月 2 日,自然语言处理领域顶级会议 ACL2019 在意大利佛洛伦萨召开,会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台 DELTA,以进一步帮助 AI 开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力 NLP 应用更好落地。


自然语言处理模型和语音模型是很多 AI 系统与用户交互的接口,此次滴滴正式开源深度学习模型训练框架 DELTA,旨在进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。


DELTA 是滴滴第 22 个开源项目,主要基于 TensorFlow 构建,能同时支持 NLP(自然语言处理)和语音任务及数值型特征的训练。


据了解,滴滴在 NLP 和语音领域已有一定积累,希望借开源 DELTA 这个机会将自身能力开放,进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。同时 DELTA 专门针对工业界场景做了优化设计,填补了从算法模型到产品上线之间的空缺。


目前 DELTA 整合了包括文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等重要算法模型,形成一致的代码组织架构,整体包装统一接口。


用户只需要准备好模型训练数据,并指定好配置,模型训练 pipeline 就可以根据配置进行数据处理,并选择相应的任务和模型,进行模型训练。在训练结束之后,DELTA 会自动生成模型文件保存。该模型文件形成统一接口,可以直接上线使用,快速产品化,能让从研究到生产变得更容易。



DELTA 研发团队告诉 InfoQ 记者,NLP 和语音模型训练需要对数据做各种特征抽取和预处理,针对这一情况,团队优化了文本和语音特征和数据处理模块,将这一部分整合进整体模型框架之中,开发者只需提供数据,所有预处理和特征抽取可以由模型框架自动实现。另外,NLP 和语音更关注对序列的建模,DELTA 针对性地提供了大量序列的建模方法。


值得注意的是,除可支持多种模型的训练,DELTA 还支持灵活配置,开发者可基于 DELTA 搭建成多达几十种的复杂的模型;此外,DELTA 在多种常用任务上提供了稳定高效的 benchmark,用户可以简单快速的复现论文中的模型的结果,同时也可以在此基础上扩展新的模型。在模型构建完成后,用户可以使用 DELTA 的部署流程工具,迅速完成模型上线,实现从论文到产品部署无缝衔接。


目前业内还没有与 DELTA 完全一样的开源项目,业界的开源项目多用于研究目的,DELTA 是专注学术界和工业界级别的开源项目。此外,相较业界已有项目,DELTA 同时支持 NLP 和语音任务,也支持数值型特征的训练,及几种特征输入的联合多模态训练,这是实际应用中常见的场景,也是 DELTA 性能更加优越的地方。


目前 AI 开发者可登陆Github查看 DELTA 的详细介绍和源代码,利用 DELTA 加快实验进度,部署用于文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等任务的系统。用户亦可在滴滴开源平台上获取更多滴滴开源项目的相关信息。


2019-08-05 16:212634
用户头像
蔡芳芳 InfoQ 总编辑

发布了 817 篇内容, 共 596.8 次阅读, 收获喜欢 2817 次。

关注

评论

发布
暂无评论
发现更多内容

1周上线,2个月交付!有巢数智如何用 NocoBase 颠覆建筑行业数智化效率

NocoBase

开源 低代码 插件 数智化 建筑业

突破续航瓶颈:数字样机技术引领新能源汽车复合制动新方向

DevOps和数字孪生

智慧环保系统(源码+文档+讲解+演示)

深圳亥时科技

数据线良率总上不去?MES系统教你3招把不良率砍半!

万界星空科技

数字化 mes 万界星空科技 制造业工厂 数据线工厂

显存也能叠叠乐,双 Intel Arc A770 显卡低成本部署 DeepSeek R1 32B 蒸馏模型体验

E科讯

1688店铺所有商品列表接口全攻略

tbapi

1688API 1688店铺所有商品接口 1688店铺商品采集

AI口语陪练APP的核心功能

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

《Operating System Concepts》阅读笔记:p359-p388

codists

操作系统

DeepSeek黑科技加持 嘉为蓝鲸WeOps V5.0让运维预见未来

嘉为蓝鲸

智能运维 产品发布 嘉为蓝鲸 #WeOps

真正的AI新风口,竟是它?

Immerse

什么是有限元分析技术?仿真软件正逐步成为新型科技

思茂信息

仿真 abaqus 有限元分析

从协作视角看银行 SRE 转型:与虚拟 IT 组织的创新联动

嘉为蓝鲸

AIOPS SRE 银行运维

故障隔离与防护架构设计

FunTester

Cloud Ace 宣布成为 Langfuse 亚太地区首个代理商,提供 LLM 全链路方案

Cloud Ace 云一

LLM LLMOps 生成式 AI 应用 Langfuse

每月仅能使用80小时,ToDesk再度降低免费用户使用时长

科技热闻

无人值守收入核算,无需下班的“AI收入会计”

用友智能财务

AI 数字化 财务 会计

芯盾时代身份管理解决方案

芯盾时代

iam 统一身份认证 统一身份管理

试验协同管理平台(源码+文档+讲解+演示)

深圳亥时科技

智能车间管理系统(源码+文档+讲解+演示)

深圳亥时科技

AI口语机器人的功能规划

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

DDNS和内网穿透服务实名监管趋严,贝锐花生壳成唯一可靠选择!

科技热闻

数据安全,信息安全解决方案,信息安全实施方案

金陵老街

信息安全 数据安全

Hologres实时湖仓能力入门实践

阿里云大数据AI技术

大数据 数据仓库 OLAP hologres

商家域稳定性建设之原理探索|得物技术

得物技术

运维人的福音!嘉为蓝鲸OpsPilot V3.2 联网检索功能,让问题解决快人一步!

嘉为蓝鲸

智能运维 产品发布 嘉为蓝鲸 #WeOps

垂域大模型时代 | 专业数据铸就行业智能底座

数据堂

人工智能 金融 数据集 大模型 垂域模型

Flink CDC+Hologres高性能数据同步优化实践

阿里云大数据AI技术

大数据 flink 数据仓库 OLAP hologres

百度百舸万卡集群的训练稳定性系统设计和实践

百度Geek说

集群 AI 搜索引擎

AI Day引爆测试圈:你的测试工具该升级了,手工测试到AI智能测试

测试人

人工智能

这款流行 AI 工具被盗用挖取加密货币,这些隐患你需要知道

阿里巴巴云原生

阿里云 云原生 Higress

滴滴开源自然语言理解模型训练平台DELTA_AI&大模型_蔡芳芳_InfoQ精选文章