抖音技术能力大揭密!钜惠大礼、深度体验,尽在火山引擎增长沙龙,就等你来! 立即报名>> 了解详情
写点什么

敏捷大数据与敏捷 AI

2020 年 2 月 13 日

敏捷大数据与敏捷AI

前言


人工智能的诞生可以追溯到上世纪 50 年代,在达特茅斯会议上,麦卡锡提出了 AI 的概念,但在初期的热度过后,人工智能的发展经历了多次低谷,直到从 90 年代中末期开始至今的这近二十年的时间里,人工智能才真正迎来了黄金时期。尤其是在近 10 年来,各方面因素都推动其不断发展:理论上,机器学习,尤其是统计学习和神经网络理论不断突破,效果显著;外部环境上,软硬件技术的进步为人工智能模型的实现提供了足够的计算能力;此外,极为重要的一个因素就是在数据方面,大数据技术的发展使人工智能终于摆脱了数据的桎梏,可以在充足的样本基础上提升模型的能力。可以说,现在各领域智能模型的研发绝大多数都离不开大数据技术的支持。


反过来看,人工智能对大数据技术同样有着极为重要的作用。一方面,对于利用大数据技术收集到的数据需要通过一些智能分析过程才能发现其中的价值;另一方面,通过对已有数据的智能分析,我们可以推导出更多的数据特征,甚至进一步指导数据生产的方向。所以在今天我们谈起大数据的利用,都不可避免地涉及到人工智能、机器学习等概念。


敏捷大数据平台栈作为一个实时数据基础设施平台,是对大数据理论与技术进一步发展的成果,自然也会有对智能化方面的研究与布局。敏捷大数据智能化的主要目标就是,结合敏捷大数据实施理念,研发灵活的、轻量化的智能模型,并在敏捷大数据平台上对数据流进行实时智能化处理,最终实现一站式的大数据智能分析实践。


为实现上述目标,我们对人工智能、机器学习、实时运算等技术,以及相关业务领域知识,乃至产品用户体验都进行了深入的研究与分析,本系列文章将把我们的理念和在上述过程中所获得的一些经验、成果与大家分享。


实时数据智能处理


如本平台之前一系列文章所述,随着技术的发展,我们能够获得前所未有的海量数据,如果能够快速、高效地对这些数据进行处理,发现其中的高价值信息,无疑可以极大提升企业的应变能力,从而在复杂且易变的业务场景中迅速地做出战术乃至战略上的调整。因此,实时数据处理已成为未来大数据技术发展的主要方向。数据处理的实时化必然会对与数据紧密相关的智能分析模型造成影响,可以说,为了快速识别、适应外部环境的变化情况,各组织已经开始将数据实时处理能力与 AI 能力相结合,实现智能数据分析业务的快速交付。


实际上,针对实时数据流的智能化处理技术已经在很多行业中得到了先验。例如在互联网直播领域,基于视频流的实时滤镜、实时特效算法已经在快手、抖音等众多 APP 中普遍使用,而国外的 Twitch 等直播网站,也推出了实时游戏数据分析等 AI 插件来增强直播效果;在体育数据领域,基于实时赛况的球队、球员数据统计分析和赛况走势预测也在各体育数据提供商处,如 Opta Sports 等,得到了应用;在交通领域,基于实时交通信息的路况拥堵预测系统也已经开始实施。此类例子不一而足,但都反映了实时 AI 数据处理已经在不同领域、不同业务场景下得到了广泛应用,并且发挥了不可取代的作用。


在金融领域的许多场景中,对于实时 AI 数据处理同样存在有众多需求,如实时风控、实时数据预测、实时异常检测、实时用户分析等等。下图为实时产品推荐的一个数据流图,可以用于金融产品推荐场景中,例如网贷、保险、基金、股票等产品。


1541066656838038412.png


该图描述了如下过程:在交互端我们可以通过埋点获得大量的、不同用户的行为数据,这些数据将被企业实时数据平台采集,与用户、产品及其他数据一起提供给计算层的各类模型,如用户兴趣模型、产品画像模型等。这些模型对用户和产品进行特征刻画,最终提供给推荐模型计算、排序、过滤得到最终的推荐列表。这一过程中我们可以根据采集到的实时用户行为数据流对用户兴趣模型进行更新和校正,从而实现对用户所感兴趣内容的实时追踪。上图没有体现的一个过程是对产品画像模型的实时更新,尽管相对用户的行为数据而言,产品的特征数据相对稳定,但在实际当中还是有不少产品对时效性要求很高,其画像特征也需要我们进行实时的维护,例如证券市场的数据信息等。这些产品数据流可以通过其他渠道汇总进入企业实时数据平台之中,并提供给产品画像模型进行产品特征的重构,最终提供给推荐模型进行产品推荐。一个好的实时产品推荐系统可以灵敏捕捉用户的需求、响应产品的变化,可以高效地针对用户开展个性化精准营销,提升用户体验度的同时还能够提高获客和关单数量,产生巨大的业务价值。


在上图中企业实时数据平台扮演了为推荐模型提供实时数据的重要任务。在一个敏捷的数据环境中,敏捷大数据就平台可以很好地支持上述工作,一种实现架构如下图所示:


1541066672707078321.png


在该图中,dbus 和 wormhole 可以方便对接多种不同数据源,实时获取数据,将数据 pipeline 源头实时化。另外 wormhole 支持流上处理,很适合接入产品画像模型和用户兴趣模型对产品与用户的特征进行实时刻画,这些特征经过存储后由 moonbox 根据需要进行抽取,输入推荐模型得到需要的推荐列表,最终返回给交互端。此外,如果加上 davinci 数据 BI 的支持,我们还可以轻松地实现实时业务指标监控,便于我们对推荐效果进行评估。整个过程灵活、便捷地整合了多种不同开源平台以快速搭建实时数据应用,还可以根据需要随时切换开源选型,支持快速迭代试错,结合已有的算法模型就能够迅速支持实现智能用户产品实时推荐这一场景。


敏捷 AI


如前文所述,在实时 AI 数据处理过程中,基于敏捷大数据的各项业务组件,结合第三方的开源构件,通过简单配置即可快速编排、敏捷地实现算法运行的底层支持架构。这使得整个系统中看起来唯一的麻烦之处在于我们还要事先开发好各种智能模型,这对于一些业务组织来说还是有一定的技术门槛;此外对于某些业务来说,快速推进和成本控制才是首要考虑的因素,那么针对性地定制化开发智能算法模型,并调整调用接口使之可以接入实时数据架构之中,就显得比较笨拙。例如很多数据分析的业务人员,也许不需要太过精准的模型性能,但最好能够保证分析系统实施的便捷性、业务逻辑实现的迅捷性。我们已经让数据处理变得敏捷,那么如何将数据智能也变得更加敏捷呢?为了解决这一问题,我们提出了敏捷 AI 的实施思路,即在现有敏捷大数据产品的基础之上,基于业务场景设计开发一系列可插拔的实时智能模型算子,这些模型涵盖了业务场景内常见的智能化数据分析需求,具有较强的通用性和复用性,能够无缝接入敏捷大数据平台上的实时数据流并向平台输出分析结果,根据需要实时流入各业务端,最终实现基于实时数据流的智能分析过程。在敏捷大数据产品和敏捷 AI 的支持下,业务人员可以根据业务场景快速构建从实时数据处理平台到实时数据智能分析,再到实时数据展示的整个智能化数据治理流程,并可根据效果灵活调整试错,极大降低实时智能化业务分析的实施成本。


在上述敏捷 AI 的实施思路下,我们着手构建敏捷 AI 算法库,这是一套基于业务领域划分的轻量级通用数据模型集合。其中的每个模型的设计应该遵循以下原则:


  • 轻量级,对模型复杂度进行适当的控制保证数据处理的实时性;

  • 独立性,尽量减少环境依赖或保证环境的部署独立性,避免由模型引入给系统整体带来的环境依赖变动;

  • 单一性,各模型功能尽量单一,保证各模型功能的平行性;

  • 数据普适性,除部分模型存在一些必需的特征外,各模型应保证对接入数据的普遍适应能力,通过一定的配置或映射即可以适应绝大多数的业务场景。


为了实现上述要求,我们在研发模型时将不可避免地在某些方面做出一些取舍,例如模型若想通用必将会导致性能的一定程度下降,如何在这些矛盾中寻求一个合理的折中,也是在设计时需要考虑的问题。目前,我们已经针对一些领域开始研发敏捷 AI 模型,经过实际测试与应用后,不久的将来就将整合进现在的敏捷大数据产品栈中。此外,在未来我们还可以公布相关接口和规约,让用户也有能力将自己的模型加入到库中。


结语


实时数据的智能化分析是未来大数据技术和人工智能技术发展的重要方向之一,如何降低这一实施过程的经济成本、时间成本、技术成本以及变更成本,是敏捷大数据和敏捷 AI 着重解决的关键问题。本文结合敏捷大数据产品提出了一种解决思路,希望我们的产品能够帮助各组织方便、快速、灵活地构建自己的实时大数据智能分析系统。


本文转载自宜信技术学院网站。


原文链接:http://college.creditease.cn/detail/180


2020 年 2 月 13 日 21:47370

评论

发布
暂无评论
发现更多内容

Java开发基础不牢?什么是中间件?

策划Java工程师

Java 程序员 后端

全国首笔“区块链+闲置住宅”交易在昆山完成

CECBC区块链专委会

双非本科电子跨专业,苦学八个月,投岗阿里/滴滴后端三面,最终拿下offer

今晚早点睡

阿里巴巴 计算机 阿里巴巴面试 面试‘’ JAVA;、

架构实战营模块3作业指导

华仔

架构实战营

博睿数据App 3.0四大新功能来袭,大幅提升App用户体验可见性

博睿数据

币安链NFT游戏系统开发区块链技术

薇電13242772558

区块链 智能合约

TimeUtils 实用封装

Changing Lin

8月日更

Java开发全套学习!MySQL进阶,秒变大神(1)

策划Java工程师

Java 程序员 后端

Java开发前景怎么样?【Spring Boot 21

策划Java工程师

Java 程序员 后端

45天拿下美团Offer,狂抬阿里这本Java性能调优手册,不愧是No.1

Crud的程序员

Java 程序员 架构 编程语言

毕业总结

Vincent

架构训练营

Java开发三年月薪才12K,你知道如何用面向对象思想写好并发编程吗?

策划Java工程师

Java 程序员 后端

Java开发从零开始!《SpringCloud超级入门(4)

策划Java工程师

Java 程序员 后端

京东:Flink SQL 优化实战

Apache Flink

flink

Java开发入门教程!程序员:面试官

策划Java工程师

Java 程序员 后端

TCL携大屏天团领跑UDE,斩获多项创新大奖

科技热闻

终于彻底搞清楚了 MySQL spin-lock 之一次CPU问题定位过程总结

互联网架构师小马

架构实战营毕业总结

eoeoeo

架构实战营

区块链的兴起及其司法运用

CECBC区块链专委会

极狐 GitLab 探秘系列|极狐 GitLab 初探(下)

极狐GitLab

DevOps DevSecOps gitops

Java开发基础面试题,【springcloud

策划Java工程师

Java 程序员 后端

Java开发快速学习!三面蚂蚁金服成功拿到offer后,他说他累了

策划Java工程师

Java 程序员 后端

亏损、退市、卖身...区块链如何挽救影视行业?

CECBC区块链专委会

IT公司防止运维偷窥和篡改数据库的最佳武器-云堡垒机!

行云管家

数据安全 堡垒机 数据泄露

Spring框架中一个有用的小组件:Spring Retry

Java技术那些事

Java spring 编程 程序员 8月日更

运维必经操作,TcaplusDB tcapsvr扩缩容介绍

数据人er

数据库 nosql tencentdb TcaplusDB

人工智能从业者需要掌握哪些数学知识

小术晓术

人工智能 数学

Java开发6年了,BAT面试文档:ActiveMQ(1)

策划Java工程师

Java 程序员 后端

凭这份阿里内部的高级面试指南,通过美团/京东等大厂Java岗面试

Crud的程序员

Java spring 编程 架构

终于有人把操作系统,网络系统,线程进程,IO模型全部总结出来了

云流

程序员 架构 面试 操作系统 计算机

应届生怎么走Linux下C++后台服务器开发路线,工作3-5年的知识体系

Linux服务器开发

Linux C/C++ linux开发 Linux服务器开发 Linux后台开发

Study Go: From Zero to Hero

Study Go: From Zero to Hero

敏捷大数据与敏捷AI-InfoQ