【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

深度学习与大数据系统融合是 dead direction 吗?

  • 2020-12-01
  • 本文字数:1768 字

    阅读完需:约 6 分钟

深度学习与大数据系统融合是dead direction吗?

2016 年,人工智能以围棋冠军的身份进入了人们的视野,有关深度学习的研究也遍地开花,其中有一个方向颇为小众:深度学习与大数据系统融合。如今四年过去了,这一领域一直不为业内所关注,甚至少有成果展示。那么在这样的前提下,坚持在深度学习与大数据系统融合领域的探究是否还有意义呢?


为了寻找答案,InfoQ 专门采访到了来自腾讯互娱增值服务部的专家研究员——李立,作为人工智能领域的专家,他对该研究方向的现状与前景有着自己的一番见解。李老师也将在 2020 年 12 月 6-7 日的 QCon 全球软件开发大会(深圳站)“人工智能前沿方向与落地实践“专题中,带来《深度学习和大数据系统融合的思考和应用》的演讲,进一步分享他和团队在深度学习与大数据系统融合方向未来的思考和探索。

深度学习为何要与大数据系统结合?


“大数据是作为深度学习的基础而存在的。”李立说,这是指“大数据系统中数据是深度学习的数据养料,没有大数据系统的海量数据,很多深度学习模型都会陷入过拟合的状态”。


众所周知,人工智能的发展不能离开三大要素:数据、算法、算力。这其中,数据是非常重要的基础,也正因如此,A+B+C(即:AI+大数据+云计算)的模式能成为了不少企业发展人工智能的标准配备。


大数据系统和深度学习训练系统通常是分开独立的两套系统。大数据系统中的数据,通过 IO 转移到深度学习训练系统,然后进行训练。


但是,为深度学习设置单独的集群,会迫使开发人员为机器学习流程创建多个程序。拥有独立的集群需要在它们之间传递大型数据集,从而引起不必要的系统复杂性和端到端的学习延迟


因此,深度学习和大数据系统融合是将两套系统打通,具体来说,就是深度学习模型在大数据系统集群上进行训练。


在深度学习风靡的 2017 年,有不少企业都在深度学习和大数据系统融合的方向上进行过探索。


最著名的项目是 Yahoo ! 研究院开源的 TensorFlow On Spark 项目。


2017 年 2 月 13 日,雅虎宣布开源 TensorFlowOnSpark ,该项目为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。 通过结合深入学习框架 TensorFlow 和大数据框架 Apache Spark 的显着特征,TensorFlowOnSpark 能够方便地实现分布式深度学习。


随后也有一些公司推出了类似的工具,比如:2019 年 6 月 28 日,阿里巴巴也推出了 Flink-AI-Extended,结合了 TensorFlow 和 Flink,旨在为用户提供了更方便有用的工具。


但是,在工业界和学术界,这个方向可以说是相当小众,甚至有失败。李立说,杀手级的落地场景更是一个都没有。对此,他表示:“我们对这个方向思考的一个结论就是,深度学习和大数据系统融合全面支持不同类型深度学习是不现实的,必须给这个方向找准合适的场景。”

深度学习和大数据融合融合是 Dead direction?


“从当前的现状来看,深度学习和大数据系统融合,是一个 dead direction(死胡同) 了。”李立这样告诉 InfoQ。


李立进一步解释道,之所以这样说,一方面是因为 Kubernetes 已经逐渐成熟,当前主流做法是基于 K8S 搭建深度学习分布式训练集群;另一方面是因为,深度学习和大数据融合,因为大数据集群缺少对 GPU 成熟的调度能力,并不是很适合训练自然语言处理、计算机视觉和音频处理领域相关的计算密集型的模型。


不过,他补充说:“话虽如此,但重新定位和重新选择路线,深度学习和大数据系统融合还是能找到自己的价值。”


如果这个方向真能找到自己的价值,会加速大数据系统进一步完善其 GPU 调度能力。李立认为,目前 Spark、Storm 和 Flink 的 GPU 调度能力都相对不成熟,而且这方面的进展不快。其中原因就是没有太大的场景需要大数据系统有成熟的 GPU 调度能力。但一旦深度学习和大数据融合有比较大的价值的话,大数据系统进一步发展其 GPU 调度能力,就有了充足的理由和需求。

结语


深度学习与大数据系统融合虽然已经发展多年,但目前仍热并不被工业界的实践所接受,有人认为该方向已经是 dead direction,但是李立及其团队却依旧发掘了一些新的可能。想要了解更多详细信息,可以来QCon深圳现场与李老师进行更深入的交流。


大会召开在即,扫码图中二维码或点击这里可查看大会日程。会议咨询:17310043226(同微信)


采访嘉宾简介


李立,腾讯互动娱乐增值服务部专家研究员,毕业于北京大学计算机系,丰富技术研发经历,主要研究领域包括机器学习、推荐系统和游戏 AI Bot 等,参与和负责多个国家课题项目,发表多篇学术论文和拥有多项技术发明专利。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-12-01 11:471601
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 263.1 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

遇到SSL/TLS层的攻击,有什么办法?

德迅云安全杨德俊

Cookie for Mac(浏览器缓存清理工具) v7.2.3免激活版

iMac小白

n-Track Studio Suite for Mac(多轨音乐制作软件) 10.0.0 (8466)激活版

iMac小白

RightFont for Mac(字体管理软件) v8.6.0免激活版

iMac小白

MediaHuman YouTube to MP3 Converter mac(YouTube音乐转MP3转换器)v3.9.9.89中文注册版

影影绰绰一往直前

OmniFocus Pro 3 for Mac(最强GTD时间管理工具)v3.15.6中文激活版

影影绰绰一往直前

TG Pro for mac(Mac硬件温度检测工具) v2.91激活版

iMac小白

PDF Squeezer for Mac(强大的PDF文件压缩工具) v4.5.1免激活版

iMac小白

1688接口推荐:1688商品详情数据接口

tbapi

1688 1688API接口 1688商品详情数据接口 1688商品数据采集

MediaHuman YouTube Downloader mac(YouTube视频下载工具)v3.9.9.89中文注册版

影影绰绰一往直前

加密货币开发服务领域有哪些新兴机会

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

DJ Mix Pads 2 - Remix Version for Mac(独特DJ混音创作软件)v16.0.1激活版

影影绰绰一往直前

Bookends for Mac(文献书籍管理工具)v15.0注册激活版

影影绰绰一往直前

iNet Network Scanner for Mac(mac网络扫描工具) v3.0.6永久激活版

iMac小白

Video Converter X2 for Mac(功能齐全的视频格式转换器)v1.3.1激活版

影影绰绰一往直前

Rocket Typist pro for mac(文本快速输入工具) v3.0.9激活版

iMac小白

央视财经推出两会AI数字人主播!

青否数字人

数字人怎样能做到不间断直播?

青否数字人

央视两会数字主持人小天、小东完成交互!

青否数字人

数字人

DropDMG for Mac (dmg制作工具) v3.6.7中文版

iMac小白

淘系接口推荐:淘宝店铺所有商品数据接口

tbapi

淘宝API接口 淘宝店铺所有商品数据接口 淘宝商品数据采集

基于 Sass 的架构之 redis多租户

智慧源点

Aiseesoft iPhone Unlocker for Mac(苹果设备解锁工具)v2.0.38激活版

影影绰绰一往直前

十二要素应用: 云原生应用最佳实践

俞凡

架构 最佳实践 云原生

Clearview X for Mac(标签式电子书阅读器) v3.5.0激活版

iMac小白

WiFiSpoof for Mac(wifi地址修改工具) v3.9.4免激活版

iMac小白

告别过往,重获新生

少油少糖八分饱

村上春树 小说推荐 海边的卡夫卡

Aiseesoft iPhone Cleaner for Mac(ios清理工具)v1.0.30中文激活版

影影绰绰一往直前

深度学习与大数据系统融合是dead direction吗?_AI&大模型_陈思_InfoQ精选文章