【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

深度学习与大数据系统融合是 dead direction 吗?

  • 2020-12-01
  • 本文字数:1768 字

    阅读完需:约 6 分钟

深度学习与大数据系统融合是dead direction吗?

2016 年,人工智能以围棋冠军的身份进入了人们的视野,有关深度学习的研究也遍地开花,其中有一个方向颇为小众:深度学习与大数据系统融合。如今四年过去了,这一领域一直不为业内所关注,甚至少有成果展示。那么在这样的前提下,坚持在深度学习与大数据系统融合领域的探究是否还有意义呢?


为了寻找答案,InfoQ 专门采访到了来自腾讯互娱增值服务部的专家研究员——李立,作为人工智能领域的专家,他对该研究方向的现状与前景有着自己的一番见解。李老师也将在 2020 年 12 月 6-7 日的 QCon 全球软件开发大会(深圳站)“人工智能前沿方向与落地实践“专题中,带来《深度学习和大数据系统融合的思考和应用》的演讲,进一步分享他和团队在深度学习与大数据系统融合方向未来的思考和探索。

深度学习为何要与大数据系统结合?


“大数据是作为深度学习的基础而存在的。”李立说,这是指“大数据系统中数据是深度学习的数据养料,没有大数据系统的海量数据,很多深度学习模型都会陷入过拟合的状态”。


众所周知,人工智能的发展不能离开三大要素:数据、算法、算力。这其中,数据是非常重要的基础,也正因如此,A+B+C(即:AI+大数据+云计算)的模式能成为了不少企业发展人工智能的标准配备。


大数据系统和深度学习训练系统通常是分开独立的两套系统。大数据系统中的数据,通过 IO 转移到深度学习训练系统,然后进行训练。


但是,为深度学习设置单独的集群,会迫使开发人员为机器学习流程创建多个程序。拥有独立的集群需要在它们之间传递大型数据集,从而引起不必要的系统复杂性和端到端的学习延迟


因此,深度学习和大数据系统融合是将两套系统打通,具体来说,就是深度学习模型在大数据系统集群上进行训练。


在深度学习风靡的 2017 年,有不少企业都在深度学习和大数据系统融合的方向上进行过探索。


最著名的项目是 Yahoo ! 研究院开源的 TensorFlow On Spark 项目。


2017 年 2 月 13 日,雅虎宣布开源 TensorFlowOnSpark ,该项目为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。 通过结合深入学习框架 TensorFlow 和大数据框架 Apache Spark 的显着特征,TensorFlowOnSpark 能够方便地实现分布式深度学习。


随后也有一些公司推出了类似的工具,比如:2019 年 6 月 28 日,阿里巴巴也推出了 Flink-AI-Extended,结合了 TensorFlow 和 Flink,旨在为用户提供了更方便有用的工具。


但是,在工业界和学术界,这个方向可以说是相当小众,甚至有失败。李立说,杀手级的落地场景更是一个都没有。对此,他表示:“我们对这个方向思考的一个结论就是,深度学习和大数据系统融合全面支持不同类型深度学习是不现实的,必须给这个方向找准合适的场景。”

深度学习和大数据融合融合是 Dead direction?


“从当前的现状来看,深度学习和大数据系统融合,是一个 dead direction(死胡同) 了。”李立这样告诉 InfoQ。


李立进一步解释道,之所以这样说,一方面是因为 Kubernetes 已经逐渐成熟,当前主流做法是基于 K8S 搭建深度学习分布式训练集群;另一方面是因为,深度学习和大数据融合,因为大数据集群缺少对 GPU 成熟的调度能力,并不是很适合训练自然语言处理、计算机视觉和音频处理领域相关的计算密集型的模型。


不过,他补充说:“话虽如此,但重新定位和重新选择路线,深度学习和大数据系统融合还是能找到自己的价值。”


如果这个方向真能找到自己的价值,会加速大数据系统进一步完善其 GPU 调度能力。李立认为,目前 Spark、Storm 和 Flink 的 GPU 调度能力都相对不成熟,而且这方面的进展不快。其中原因就是没有太大的场景需要大数据系统有成熟的 GPU 调度能力。但一旦深度学习和大数据融合有比较大的价值的话,大数据系统进一步发展其 GPU 调度能力,就有了充足的理由和需求。

结语


深度学习与大数据系统融合虽然已经发展多年,但目前仍热并不被工业界的实践所接受,有人认为该方向已经是 dead direction,但是李立及其团队却依旧发掘了一些新的可能。想要了解更多详细信息,可以来QCon深圳现场与李老师进行更深入的交流。


大会召开在即,扫码图中二维码或点击这里可查看大会日程。会议咨询:17310043226(同微信)


采访嘉宾简介


李立,腾讯互动娱乐增值服务部专家研究员,毕业于北京大学计算机系,丰富技术研发经历,主要研究领域包括机器学习、推荐系统和游戏 AI Bot 等,参与和负责多个国家课题项目,发表多篇学术论文和拥有多项技术发明专利。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-12-01 11:471597
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.7 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

Vue组件入门(九)v-model 自定义修饰符

Augus

Vue 3 10月月更

@全体开发者, 华为云1024程序员节精彩开启!

华为云开发者联盟

华为云 企业号十月 PK 榜

从零手写react-router

helloworld1024fd

JavaScript

vcluster -- 基于虚拟集群的多租户方案

Se7en

Kubernetes 云原生

固定QPS异步任务功能初探

FunTester

数字化的一切都会在安全沙箱里面

FN0

云计算 安全性 沙箱

时间复杂度与空间复杂度

lovevivi

c 数据结构 10月月更

数据结构学习,数组和数组矩阵的三种压缩

IC00

学习 数据结构 算法 学习笔记 10月月更

vue为什么v-for的优先级比v-if的高?

bb_xiaxia1998

Vue

链表专项之环形链表

lovevivi

c 数据结构 10月月更

K8S 故障排错新手段:kubectl debug实战

BoCloud博云

容器 云原生 k8s

js 和 css 是如何影响DOM树构建的?

CoderBin

CSS JavaScript 前端 DOM 10月月更

开源依赖管理的最佳实践

SEAL安全

开源许可证 开源安全 软件供应链安全 开源安全与治理 10月月更

需求吞吐量半年提升 65%,500强企业这样做|ONES 研发管理大师课

万事ONES

C# Timer控件学习,使用Timer解决按钮幂等性问题

IC00

C# 学习 程序员 上位机 10月月更

进阶vue面试题总结

bb_xiaxia1998

Vue

揭秘百度智能测试在测试评估领域实践

百度Geek说

测试 数据 企业号十月 PK 榜

质量切入点都在哪儿呢?

QE_LAB

质量保障 敏捷精益

ThreadLocal 源码分析-扩容和get方法

zarmnosaj

10月月更

前端培训学习好就业吗?

小谷哥

MobLink Android 快速集成

MobTech袤博科技

Gradle sdk moblink

将 NGINX 部署为 API 网关,第 2 部分:保护后端服务

NGINX开源社区

nginx 安全 Backend Developer api 网关 模块

如何修改已提交commit信息

Appleex

git

Bonree ONE 2.0重磅发布,中国IT运维迈入数智融合3.0时代

博睿数据

可观测性 根因分析 博睿数据 ONE平台 智能运维AIOps

从零开始实现一个Promise

helloworld1024fd

JavaScript

EasyNLP发布融合语言学和事实知识的中文预训练模型CKBERT

阿里云大数据AI技术

深度学习 开源 语言模型 企业号十月PK榜

社招前端经典手写面试题合集

helloworld1024fd

JavaScript

长安链源码分析之网络模块 net-liquid(4)

云图说|AppCube零代码,开启无码新生活

华为云开发者联盟

低代码 零代码 华为云 企业号十月 PK 榜

vue组件通信6种方式总结(常问知识点)

bb_xiaxia1998

Vue

一句口诀教你辨别索引失效七大场景

华为云开发者联盟

数据库 后端 索引 华为云 企业号十月 PK 榜

深度学习与大数据系统融合是dead direction吗?_AI&大模型_陈思_InfoQ精选文章