【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

蚂蚁金服首席架构师何昌华:开源 SQLFlow 是牛刀初试,实时大数据系统才是未来基石

  • 2019-08-26
  • 本文字数:3367 字

    阅读完需:约 11 分钟

蚂蚁金服首席架构师何昌华:开源SQLFlow是牛刀初试,实时大数据系统才是未来基石

开源 SQLFlow,反哺业界,同时小小秀出 AI 肌肉。


这就是蚂蚁金服近日开源首个将 SQL 应用于 AI 引擎项目 SQLFlow 后,业界给出的反应。


SQLFlow,把艰深的 AI 与简单的 SQL 结合起来,大大简化了数据工程师使用 AI 技术的门槛。


而研发出 SQLFlow 的,正是蚂蚁金服计算存储首席架构师何昌华带领下的 AI Infra 团队。



何昌华斯坦福博士毕业,先在 Google 总部工作 7 年,赢得过公司最高技术奖项,其后又在独角兽 Airbnb 工作 2 年,负责后台系统的应用架构。


2017 年 5 月,他正式加盟蚂蚁金服,担任计算存储首席架构师,并在 2018 年入选了第 14 批国家“千人计划”专家。


在蚂蚁金服,何昌华的工作是开发新一代计算引擎,搭建金融型数据智能平台。


而 SQLFlow,就是计算引擎主线上的结晶之一。


不过对何昌华来说,世界正在巨变,他还要带队探索一些没人做成的事情。


比如全实时的大数据智能系统。

未来技术基石

大数据的概念,最早来自于搜索引擎行业,因为搜索引擎面对的是人类在互联网上留下的爆炸性增长的庞大数据。


2010 年底,谷歌宣布新一代搜索引擎“咖啡因”正式上线,这项技术的革命性在于,任何时刻,世界上的任何网页发生了变化,都可以实时地添加到索引中,用户也可以实时地搜索到,解决了传统搜索引擎的延时问题。


何昌华当时正是咖啡因开发团队的核心技术负责人之一。


他解释,“咖啡因所实现的最核心的功能,就是实时。”


而现在何昌华在蚂蚁金服工作的目标,同样是搭建一个“完全实时”的大数据处理系统,或称之为大数据智能平台。由于线下生活场景的多样性和复杂性,这是个比构建实时搜索更有挑战性的任务。


他认为,这将成为未来技术的基石。


对于计算机来说,实时就是在发出请求到返回响应之间的延迟尽量小,对于大数据处理系统来说,这还意味着从数据生产到消费的延迟尽可能低,所有这些都意味着计算速度和能力的提升。


此前常用的大数据计算模型 MapReduce,对数据的处理是“分片式”的,数据的片与片之间有边界的概念,这种批处理的模式不可避免地会带来延时问题。


以搜索的场景为例,假如以天为时间单位对数据进行批处理,那就意味着今天更新的网页,用户明天才能搜索到,调高处理的频率可以部分解决问题,一天两次、一天四次、两小时一次……


虽然能逐步接近“准实时”,但成本也会急剧上升。


要实现真正的实时,就必须打破这种批处理的边界,让数据处理的过程像水流一样,随来随算,随时反馈。


这也催生了后来流式计算引擎的蓬勃发展。


而在何昌华看来,除了快,“实时系统”还有两层重要含义。

第一是 OLTP(联机事务处理)和 OLAP(联机分析处理)的融合。

在以往的观念里,OLTP 对实时性的要求高,OLAP 对时效性的要求不那么高。


举例而言,用支付宝进行一笔交易,需要即时查询和增删记录,就是由 OLTP 来处理的。而对用户行为特征的数据分析,则由 OLAP 来处理。


但现在随着业务场景需求的不断变化,OLAP 的时效性要求也越来越高。


例如互联网金融中的风控场景,就需要在完成一笔交易的极短时间中,通过分析用户的特征数据判断风险,这要求 OLAP 也要能实时反馈,且反馈结果马上就能够在线访问。

第二是智能和数据系统的融合。

人工智能和机器学习是大数据应用最热门的领域,而现在绝大多数公司的做法,是将数仓和机器学习平台分开,从数仓取一批数据,放到机器学习平台上去训练模型。


随着业务场景的复杂化和多样化,这种模式逐渐显露问题,因为模型能否实时更新,能否能用更实时的数据来训练模型,直接影响了应对复杂场景的能力。



“数据实时流入、实时训练模型,模型实时上线决策并反馈数据——这一条线如果能完全打通,对于业务将产生不可估量的价值”, 何昌华说。


数据、计算、智能,所有这一切构成了何昌华设想中的“高效率的大数据底盘”,也就是一个融合的实时数据智能平台,或者叫“Big Data Base”,就像曾经数据库成为无数场景的数据底盘一样。


如今,不仅是蚂蚁金服或者阿里巴巴集团,在各行各业中,数据驱动的业务都越来越多。


但大数据开发的门槛很高,如果每一项业务都从数据开发的底层做起,将会非常耗时耗力。


如何才能让做业务的人有更多精力专注于业务?


何昌华认为这就是“Big Data Base”的使命,同样也是“基石”的含义:


我们希望让这件事变得简单——各行各业的从业人员、各条业务线的同学,在坚实的平台基础上,不需要知道下层的细节,就可以很方便地开发上层应用。

离真正的智能有多远?

降低数据和智能的门槛,这是何昌华对于新引擎和数据智能平台的期望。


目前,他带领团队开发的金融型多模融合计算引擎,已经实现了流计算与图计算、流计算与机器学习的融合打通,距离他设想中的“大融合”越来越近了。


何昌华透露团队目标,就是让业务变得“极简”:


未来两到三年,我们希望新引擎能够承担实时在线的融合计算任务。基于这个引擎,结合其他开源引擎,我们就能够构建出一整套数据智能系统。在这个数据智能系统上,业务可以非常轻松地完成从功能开发到产品上线的流程,后续的吸引流量、分析决策等也都可以借助这个平台来完成。


他甚至勾画了一幅很科幻的未来场景:你写一个功能交给引擎,引擎会决定调用多少资源去计算,你无需关心具体的计算过程,结果将会在最短的时间内反馈给你。


当你构想出一种新型业务,数据智能平台会判断需要哪些数据,采用哪种模型,如何上线,如何运营流量。


这些流程,都可以智能化地自动完成。


这是个更长远的目标。我们开发出数据处理的能力,未来,任何人都可以使用这种能力,真正实现“数据民主化”。


这样一个融合多种能力的实时数据智能平台,目前在世界上还没有哪家公司能完全研发出来。


何昌华也谨慎而满怀信心地展望着未来:“我们也是在探索,如果完全实现了探索目标,我们就将真正站到全世界领先的位置。”

无人之境

世界瞬息万变,数据作为物理世界的镜像,理论上是无穷无尽的,问题只在于人类有没有办法去记录和采集它们。


互联网和移动互联网的普及,让人类的行为数据采集成本大大降低。


IoT 传感器设备的普及,让工业生产和社会生活中的数据也能够大量地沉淀下来。


因此在过去的二十年中,数据总量出现了爆炸性的增长。


在整个世界发生数字化巨变的同时,我们的生活也在悄然改变。


基于数据应用的发展,我们享受到了一二十年之前无法想象的便捷——电商、O2O、移动支付、智能家居……


但在何昌华看来,数字化还处在非常初级的、在把线下的数据搬到线上的阶段。


真正需要思考的问题,是未来当高度数据化的社会到来时,我们拥有什么样的能力去处理和应用海量的数据。


这关系到我们是否能够基于数据做到更多的事,催生出更高的智能,进而推动人类社会向着下一阶段发展。



这就是他回国加入蚂蚁金服所要寻找的答案。


之所以回来,是因为觉得在这里做的事,往大一点说,是面向人类社会发展下一阶段的探索。


在这场全新的探索中,和海量的数据打交道是必修课,因此,他反复强调着计算能力的重要性:大数据、人工智能、深度学习……无不需要强大的计算能力,否则,向前的探索寸步难行。


人工智能的发展趋势,也是用更大更高更海量的计算,来模拟人的能力。


“真正的人工智能=数据 + 100 倍的计算”,谷歌最新的人工智能模型水平,换算出来相当于数百块 GPU 持续计算一整年。


何昌华和团队一起倾力开发的新一代计算引擎和数据智能平台,实际上是高效计算能力和强大数据处理能力的综合载体。


它自蚂蚁金服海量的业务场景和数据之中诞生,初衷是支撑蚂蚁金服的各项业务,但随着技术逐步成熟,它也可以具备多场景下的通用性。


金融属性带来的高可用性和高安全性,让它可以广泛用于其他行业,应对生活服务场景更加不在话下。


这项工作的意义,往大了说,是在推动社会的变革,虽然听上去是个宏大的命题,但它并非那么高高在上。


“每一项技术都必有它的落脚点。具体到蚂蚁金服,这些技术跟数亿人的日常生活紧密相连。”


每一天,当何昌华自己掏出手机使用支付宝结账付款时,都能直观地感受到自己的工作成果。就像他在谷歌工作时,每天也都会使用搜索功能一样:“自己做出的成果,自己每天都在使用,非常切实地感觉到技术对生活的改变。”


他这样陈述自己的人生理想。在通往理想的征程中,他既站在技术的最前沿,也身处最为日常的场景中,这二者本就密不可分:


用技术改善人的生活,推动社会和人不断往前进化。


本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)。


原文链接:


https://mp.weixin.qq.com/s/eEFmQxNIemXyhqI_XxoOCA


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-08-26 11:162193
用户头像

发布了 150 篇内容, 共 31.9 次阅读, 收获喜欢 37 次。

关注

评论

发布
暂无评论
发现更多内容

SpringBoot 整合 MyBatis

mybatis springboot 8月月更

Spark Driver CPU 占用异常问题排查

观远数据

spark bug修复 #开源 8月月更

周一见!距离阿里巴巴开源开放周还有3天

阿里巴巴中间件

阿里云 开源

参与 TDesign 收获了什么?听听社区贡献者怎么说

TDesign

设计 产品经理 设计师

全链路灰度新功能:MSE 上线配置标签推送

阿里巴巴中间件

阿里云 微服务 云原生

“似水无形” - 小程序化

FN0

小程序 容器化 轻应用

“软件定义汽车”时代,车载生态安全运转需小程序化技术

Speedoooo

小程序 车联网 小程序容器 车载安全

开源一夏 | 23张图,4500字从入门到精通解释Redis

wljslmz

redis 开源 8月月更

华为云CDN&云视频通信专场:828低价购,CDN0.05元/GB起,短信0.006元/条起

sofiya

九章云极DataCanvas YLearn因果学习开源项目荣获“可信AI实践优秀案例”奖

九章云极DataCanvas

圆壹智慧创始人兼CEO 潘麓蓉:AI制药工业落地的痛点与前进方向

阿里云弹性计算

HPC 高性能计算 AI制药

什么数据库这么猛?5.6 版本刚开源一个半月,8.0 版本竟然就要启动了?| StoneDB 社区答疑第二期

StoneDB

MySQL 数据库 开源 StoneDB 8月月更

前端食堂技术周刊第 49 期:Deno即将迎来重大变革、Blitz 2.0 Beta、Chrome删除HTTP/2服务端推送

童欧巴

JavaScript typescript deno

“九章云极DataCanvas AI平台赋能厦门航空”荣获AI平台应用标杆案例

九章云极DataCanvas

人工智能

分布式系统接口用例自动回归实践

转转技术团队

接口测试

已有小程序应用转App的一种技术

Speedoooo

小程序 小程序容器 小程序转app

付费会员之我见-02(44/100)

hackstoic

商业模式 付费会员

[教你做小游戏] H5小游戏技术选型分析,低代码?小游戏框架?canvas或SVG?还能用React?

HullQin

CSS JavaScript html 前端 8月月更

高项-第一章 信息化和信息系统(1)

索隆

项目管理 软考 笔记分享

【真送礼物】1 分钟 Serverless 极速部署盲盒平台,自己部署自己抽!

阿里巴巴中间件

阿里云 Serverless 云原生

诚邀|8月31日,【因果学习和决策优化挑战赛TOP10队伍作品秀】邀您共享因果学习智慧盛宴

九章云极DataCanvas

人工智能

在 WSL2 上部署 PyTorch

DisonTangor

WSL2 Windows 10 PyTorch

多核驱动时代的降维打击 英特尔异构混合架构破局之路

科技之家

中小微企业如何快速开发信息化系统

力软低代码开发平台

无影云电脑

六月的雨在InfoQ

无影云电脑 云电脑 8月月更

直播预告 | 流程挖掘如何助力头部制造业实现千万级增长?

望繁信科技

Beetle编译/部署自动化

转转技术团队

CI/CD

开源一夏 | 一个裸机工程转FreeRTOS的实例

矜辰所致

开源 stm32 STM32CubeMX 8月月更 FreeRTOS

实力上榜|海泰方圆跻身2022企业网络安全服务Top15

电子信息发烧客

他只是试图运用自己的能力,给这个领域带来改变

图灵教育

通信

TDesign 设计资源大更新,产品经理和设计师都可以省心啦~

TDesign

设计 设计师

蚂蚁金服首席架构师何昌华:开源SQLFlow是牛刀初试,实时大数据系统才是未来基石_AI&大模型_Geek_cb7643_InfoQ精选文章