阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

Spark Streaming 作者,Alluxio 的创始人李浩源:AI 潮流对做数据存储业务公司的挑战

  • 2019-03-15
  • 本文字数:7639 字

    阅读完需:约 25 分钟

Spark Streaming 作者,Alluxio 的创始人李浩源:AI 潮流对做数据存储业务公司的挑战

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。

采访视频地址:https://youtu.be/bFlzfUS2rfg

下文是采访的文字整理。


Alex: 大家好,我是 Alex Ren,是 Robin.ly 和 TalentSeer 的创始人。今天是我们Robin.ly Entrepreneurship Talk 第二讲,荣幸地邀请到了知名大数据初创公司 Alluxio 的创始人及 CEO,李浩源博士来做分享。介绍一下Robin.ly,它是一个新的视频内容平台,主要目的是为了提高工程师和研究人员对于 leadership,entrepreneurship 和 AI 的理解。通过邀请知名投资人,创始人,AI 领域的科学家学者,以及一些业内领袖分享他们的经历,以此增进大家对于这些内容的理解。介绍一下李博士的背景:毕业于北大,康奈尔和 UCBerkeley,获得 UC Berkeley 计算机博士学位。他的导师之一 Ion Stoica 是 Databricks 的 founding CEO;另外一位导师,Scott Shenker 是 IEEE 的工程院院士,也是以前一家 startup,Nicira 的创始人,Nicira 后来以 12 亿美元被 VMware 收购。李博士是 Tachyon 和 Spark Streaming 系统的作者,也是 Apache Spark 的 founding commiter。他曾经在 Google 和 Conviva 等公司从事过 data mining 相关工作。2015 年李博士创立 Alluxio 时(那时公司名字是 Techyon Nexus),获得了巨大的关注,并得到了硅谷知名风投人 Andreessen Horowitz 将近 $8 million 的投资。最近几年 Alluxio 获得了长足的发展,目前开源社区也越来越大,是现在主流的一个开源社区。今天想请浩源来分享下他对于大数据,对于 AI 带来的大数据的存储和计算问题,以及创业过程的理解。首先表示感谢!先请浩源解释一下 Alluxio 的定义,它的产品全称是 memory speed virtual distributed storage system。能否通俗地解释下这是个什么系统?


李浩源:很高兴接受 Alex 的邀请来到这里,跟一些工程师朋友和对创业有兴趣的朋友做一些分享。回答一下问题:Alluxio 系统,或者这个项目,是一个 virtual distributed file system,翻译成中文叫“虚拟分布式存储系统”。这也是我当年博士项目以及博士论文的主题 。这个系统到底在干什么呢?为什么做,motivation 是什么?从整个业界以及社会发展的角度看,未来的世界会是一个数据的时代。在一个数据的时代,最核心的价值本身在数据里面,这是 foundation。在这种情况下,有个人干的科技,作为一个 enabler 或者 facilitator。从这个角度出发,我们当时在探索什么样的技术会对这个时代产生最根本性的改变,或者最 fundamental 的驱动。经过分析整个生态系统环境,无非就是两点——从宏观角度,是 data-driven application,数据驱动的应用;另一个是存储领域,怎么样来存数据。这两个领域,一个是上层计算领域,一个是下层存储领域。再回来看整个数据的 life cycle,绝大部分时间是在存储里面。所以很自然而然的想法就是,在整个生态系统里,存储系统会有最大的战略性意义和重要性 。


这是我们最开始的想法。但之后发现有问题。回顾过去 40 年的存储系统发展,基于硬件的发展以及算法的发展和架构的发展,每隔 3-8 年都会有新一代存储系统产生。从用户的角度看,用户会有很多存储,或者是同一个存储很多部署在自己的环境里面,所以整个数据的存储环境非常分散和混乱。而在数据时代,数据本身非常有价值,但前提是要管理好,利用好这些数据,但目前存储领域没有人能做好。因此我们做了这套系统,这个系统在计算和存储之间,可以为用户管理所有存储在不同存储系统里的数据。叫“虚拟化”,是因为我们不去真正存储,但是替用户去管理。在构建这个平台的过程中,我们起到了一个 enabler 的作用,在不同的存储里面管理所有数据。所以用户使用时,可能有 HDFS,可能有 EMC 的存储,也可能有云存储,比如美国的亚马逊,微软,国内的阿里巴巴,华为等。但是无论它用什么存储,这个 virtual distributed file system 都可以把数据虚拟化,让上层很有效地使用,访问和管理数据。


Alex: 您讲到了上层,你们的上层是什么?有哪些公司在跟你们合作上层系统?


李浩源:从宏观角度讲是 data-driven applications。这个概念很广,现在有不同的 sector。比如最开始时,这个 sector 只是大家今天叫的 big data analytics,比如 Hadoop vendors,MapR,Cloudera,Hortonworks 这种公司,这是第一批的 data-driven application 公司。之后第二批被称作 IoT,或者是 machine learning 公司;这些公司去构建机器学习的应用,或者是物联网的应用,最根本在于分析数据。无论是什么应用,只要是以数据驱动的应用——这是第二个和第三个 sector。前瞻的话,以后随着无人驾驶,5G 的出现,无人驾驶汽车本身就是一个小的 data center,并且跟终端的大数据中心会有很大的带宽。所以它本身需要很大的数据交互量,这本身又是一个新的 workload,未来的 workload。我用这几个例子来说明 workload 的趋势,以前,新兴以及未来的类型。现在很多 workloads,有早期的像 MapReduce,Spark,还有之后的 Hive,以及又出现的 Presto,TensorFlow,Caffe 等。因为我们是开源软件公司,很多互联网上都有这些案例;针对可以读中文的 developer,我们推出了中文微信公众号,分享了很多中文案例。


Alex: 您提到了一些 AI 这方面的应用,在你们创立公司之后,也就是 2015 年之后,AI 开始热度渐长,深度学习对数据的依赖越来越大,对存储和计算资源的要求越来越高;您怎么看 AI 这波潮流对做数据存储业务公司的挑战?你们的解决方案是?


李浩源:无论是现在的 AI 潮流,以前的大数据潮流,IoT 的潮流,以后新的潮流,我们认为总体的业界方向都是数据驱动。数据本身——今天大家叫 business critical——对商业产生了很大的价值;到下一阶段,可能有几十年的时间,但是下一个阶段主题是 life critical,现在已经可以看到一些 life critical 的应用,比如自动驾驶,如果数据系统不 work,就会危及生命。一个实际的案例是去年在旧金山的一个用户,他们是一家大约 1000 人左右做基因分析的 startup 公司 Guardant Health, 他们用我们的软件分析癌症患者的基因,之后把原来需要四周的分析时间变成了两周。看起来似乎只差了一倍的时间,但是从癌症病人的角度看是生与死的区别。所以慢慢地数据应用会从 business critical 变成 life critical。


Some base curve 大家都很清楚,从今天的 fraud detection,到 risk management,e-commerce,广告推荐系统,产品推荐系统——做得越好,利润越高。这就是 business critical,以后就是 life critical,这是核心,是整个应用的走向。只要应用是数据驱动的应用,就需要大量的数据。而从一般情况看,数据越实时,越好管理,利用的效率越高,应用的结果越好。这里会涉及到底层数据的管理,如何有效访问数据,如何节省开销,如何使想使用数据的应用更容易地更实时地使用到数据。而不是另一种方式——在用户使用我们产品之前,有很多数据在另外一个存储系统里。应用的 developer 需要用某个数据,需要把数据导到一个新的存储里,这个过程可能要花费几周甚至几个月的时间。我们的系统可以使 developer 马上用上数据,这就是质的区别。同样两家公司,假设都是 financial service 行业,数据使用速度不同,竞争力就完全不同。就好像两个国家,一个有高速公路网,一个没有,两个国家同样可以拥有奥迪,奔驰等汽车,但没有高速公路网的话,汽车跑得再快还是受到极大的速度限制。


Alex: 能否介绍下你们的 solution 有什么特点?


李浩源:整个数据领域的兴起大概是 18 年前,2001-2002 年的时候。当时主要是几家互联网公司发现了这个领域的价值所在,提出大数据这一概念。很多人当时也看到了这个需求,认识到做数据平台的机会,但是绝大部分市场上已有的厂商解决问题的思路是做一个更好的存储系统。拿 Hadoop vender 这个大数据的厂商为例,今年可能已经改变了他们的 message——但是 5 年前,10 年前,谈到类似的问题,它的解决办法就是做一个非常好的存储,很便宜且容易使用,然后告诉整个业界:既然我的存储这么好,你们应该把所有的数据都移到我的存储里面。然而它忽视了整个存储行业的发展规律,每 3-8 年都会有一个 trend——基于硬件发展以及架构革新的前进,总会有更好的存储系统出现。今天是云存储,或者叫面向对象的存储(object store),取代 8-10 年前流行的大数据存储 HDFS。


我们提出的这个概念是,不想做一个更好的马车,而是做一个汽车。将最根本的要做的事情进行了替换——不再做传统的存储,而是虚拟的存储。同样的 philosophy 也被用在了不同的领域。我博士论文做的 Alluxio 的概念叫 VDFS,virtual distributed file system。这是拿 PC 时代发展举的例子。比如,现在我们用 ipad 或者任何 pad,无非是为了发邮件,办公,看电影,玩游戏;并不需要关心邮件系统底下到底是如何设计的,也不需要关心 ipad 里面的 CPU 是谁产的。


从数据时代来看,这些应用以及应用的人关心的就是两件事情:第一,要把一个数据放进去,第二,晚些时候要读数据时候能读出来,在这个前提下,让剩下的事情尽量简单高效。这就是最核心的额内容也是我们正在做的事情。


Alex: 我看到你们有一个目标叫 unified data at memory speed,强调的是 memory speed。能否从技术角度解释一下这意味着什么?为什么一定要做到这个 memory speed?


李浩源:unified data,可以把所有的数据整合起来;memory speed 是业界硬件技术的一个发展趋势。这里有两个趋势,其一是存储计算分离,在计算端和计算集群有很多 memory 资源,内存资源,SSD 资源以及硬盘资源。如何有效地管理这些资源,这就是我们做的事情——存储计算分离。另外一个趋势是,在计算端,缓存,DRAM,或者是 3D Xpoint 以及 NVMe 这些新型的缓存技术的容量持续以指数级的方式上涨。对于大部分的应用案例,大家会发现最重要的数据量在计算端,缓存以及内存资源已经有足够能力来处理了。这个趋势会越来越明显。所以如何设计系统架构去尽可能地利用这个趋势,非常重要。我们在设计系统的第一天,整个架构就是按照以上的趋势进行的设计,因为我们相信这就是未来的大方向。


Alex: 我们来看看您之前的创业经历。UC Berkeley 的 AMPLab 享有盛誉,除了很多知名的开源产品,如 Apache Mesos,Spark,Databricks 这样的公司。您在读博士期间确定研究方向后,找到了这个痛点就做了现在的公司,这中间您有一个 transition——从技术领域 transit 到了一个 founder 的角色。作为 founder 您就要开始关注一些商业模式和市场需求。这是一个什么样的过程,有些什么样的心得?


李浩源:一方面这是一个 transition,另外一方面其实我也有一定的准备。从个人角度看,我对企业级软件比较有兴趣,也希望这种系统的创新可以被应用到不同的领域去 power 这种重要的 infrastructure——这属于个人兴趣。基于这种兴趣,在去 Berkeley 之前,我在一个做 enterprise software 的 start up Conviva 工作过一段时间。做 enterprise software 的公司和做 comsumer product 的公司有一些差别,因为很多时候 comsumer company 自己也是客户,可以从自己的角度去理解和思考。但是 enterprise 很多时候是面向企业,要专门去企业了解。所以在去 Berkeley 之前,我也利用了这个机会,这家公司除了做软件工程师外,也给了我很多机会去了解 enterprise software,如何做 enterprise software。


因此在我开始读博士以前,脑海里就有了大概的方向——要做数据,尽量和存储相关,并且在 Berkeley 期间慢慢找到了最终的方向。所以整个过程都对创业有一些准备和思考。在博士毕业前开始创立这家公司时,还是很不同——做公司,做项目和博士发论文本身就截然不同,会涉及到不同的挑战。


Alex: 我在跟您的沟通中发现您对技术痛点研究得比较深入,这个就是普通情况下 founder 需要做的事情。你要关注整个市场趋势是什么,技术能解决什么痛点。这也说明您读博时就已经有很强的目的性了。


李浩源:对。还有一个是当时实验室的优势,有两方面原因——其一是实验室的老师们给了博士生很大的空间和很多机会,如果学生想往一个方向走的话,你可以自己决定想走的方向。其二,整个实验室的架构非常有利于产业界和学术界的结合。当时这间实验室除了正常的自然科学基金资助以外,还有超过一半的资金来自业界,大约在硅谷数得上名字的技术公司都是这家实验室的赞助商。所以每年有固定两次每次三天,和业界进行集中交流的时间。作为博士生,实验室的研究人员,有机会去向业界展示阶段性的研究成果,他们也会给你一些意见和建议。这么一个 feedback loop 是一个非常有优势的点。这种关系也方便了学生在六天以外跟一些不同的公司有很大程度的交流。我记得早期的时候,我们这个项目有几十次 presentation,有充分地与业界公司里权威的技术人员进行交流的机会。


Alex: 另外我也想到,您的导师是比较知名的成功的创业者,在学术上和创业上都做得比较成功难能可贵。您从他们身上学到了什么东西?


李浩源:因为我有两个导师,他们每个人都不一样。两个人都非常厉害。在博士期间可以有这两个导师是我的幸运。这两个人从外界的角度来讲都属于功成名就了,无论是在学术界还是产业界。最重要的是他们都非常努力,即使在这个人生阶段还是毫不松懈,他们的努力程度不亚于任何一个实验室里的博士生,非常让人惊讶。另外一个就是他们对学术和产业技术方向的观点和看法非常深入。从我的角度看,他们在自己各自的领域都是世界上最杰出的任务。所以很多时候你思考的问题是如何从根本上来推动一个领域向前发展,非常有意思。从这方面看,去尝试,做一点比较基础性的创新很有意义,这也是我跟他们学到的一点。


Alex: 那您在创业生涯中,对哪些能力或者素质比较关注?比如说 soft skills,还是


presentation,沟通能力?


李浩源:刚才的这些 skill 都很重要,我自身也需要一直提高这些技能,而且这些技能不要等到做公司那天再去学。从我个人经历看,最开始做开源软件,公司成立之前大约有五六十人,有二三十家公司,需要很多沟通,就需要对一些 presentation 和 softskill 进行提升。当然公司在发展的不同阶段也一直需要提高这些技能。做不做公司是要看一个人要走的方向,但无论是否做公司这些技能的提高都很必要。


Alex:我想这个对你们来讲可能尤其重要,因为你们不只做这个公司,而且还有个开源的社区。本身开源社区的架构和技术的推广就是你们的责任。


李浩源:对。从另外一个角度讲,这不是一个人的事情。我觉得我比较幸运的是我们公司有很多非常厉害的人,比如说现在有一个副总裁是专门负责开源社区的成长。也有副总裁是专门做产品,专门做营销。负责社区的人会有 day-to-day 的跟社区人员沟通,当然会有各种各样沟通上的问题,不过可以随时解决。那最重要的是有一个好的团队,架构设好了,有一个好的团队,在这种情况下会是很好的经历。


Alex:您提到了开源社区——我想您经常会出现两个身份,一个是创始人,一个是开源社区的维护者。您怎么去平衡这两个角色?


李浩源:说实话,比较难平衡。从创始人的角度看,很多时候要考虑一个技术远景。从公司 CEO 的角度看,有很多的日常运营以及代理公司的问题,这两个角色稍微有点区别。在开源社区这边,由于我们有一个很不错的团队,所以社区方面的日常运营不需要我过分参与。但是有机会的话,我还是非常喜欢跟程序员社区的成员进行沟通。我本身也是程序员背景,很喜欢这件事情,有很大的 passion。


Alex:我看到市场上你们在中美两国都在推广, 我想知道在市场上有哪些进展?


李浩源:目前是有很多公司在用。我们也感到非常自豪,因为各个领域最好的公司都在内部使用我们的软件做越来越重要的业务。比如,我们采访的大部分听众是中国的程序员背景,从中国国内的角度看,中国目前按市值来排名的最大的前十家互联网公司里,有九家在产品线里使用我们的软件,很多也是公开地积极地参与到社区的活动里。我们的微信公众号里也有一些公开的案例,像腾讯,京东,滴滴,唯品会都在用,七牛,苏宁也都在用我们的产品。除了互联网行业,零售行业使用也很广泛。目前使用最多的几个行业是互联网,零售,包括 e-commerce,还有电信行业——特别是中美顶级的最好的三家电信公司都在用我们的软件——当然还有金融服务行业,比如在美国和亚洲地区规模最大的银行也在使用我们的产品。这也是我们目前觉得很自豪的事情: 我们的技术和产品可以得到这些很重要公司的认可,我们的产品能够让他们成为他们做很重要架构时的一个应用。


Alex:大数据创业几年前就已经开始了,现在应该已经有像你们这样做到有一定的 attraction 和客户 revenue 的社区的一个情况,您怎么看 Alluxio 下一步的发展,未来三年的目标是什么?


李浩源:首先,大数据这个词被几个大数据厂商使用过度,成为了 coin term。从这个角度讲,我们不认为自己是一家大数据公司,而是一家数据公司。区别在哪里呢?大数据公司大家认为就是做大数据分析,像 Spark,MapReduce,Hive;而我们做的其实叫 data-driven application,只要是数据驱动的应用我认为都可以跑在我们的平台上面。所以说我们是一家数据公司。这是我对未来的一个看法。


未来 3-5 年,在我刚才提到的几个领域,中美之间还有整个亚太地区,最领先的产业公司大部分都在用我们的产品,所以希望两方面:其一,从 3 年的角度看,有更多行业的顶级公司使用我们的产品,在它们的数据架构里面充当一个很重要的位置,这是从扩展行业的角度讲;其二,在已有的行业里,希望有更多的公司使用我们的产品,也希望我们的社区发展得越来越大。因为如果想作一个市值标准的话,社区发展是非常重要的指标。开源也是基础架构型软件未来的一个必然趋势。目前很多世界领先的 500 强公司在选择基础架构型软件时,一定要选择一个有开源背景的软件。所以我们从使用角度来讲要做到广和深,从技术角度来讲,要慢慢走向一个更加成熟的平台型技术。目前的系统从长远讲还有很多挑战,这也是令开发人员以及社区人员非常兴奋的一点,因为有新的东西可以做。我坚信这个系统会越来越丰富,越来越成熟,我们有一个长长的用户需求列表,希望这个系统可以越来越全面,走向对系统定位更成熟的方向。


Alex:今天倾听了浩源对整个数据行业发展的介绍,包括您所说的数据驱动的应用,整个生态,以及 AI 起来之后对行业背后的存储和计算带来的挑战,特别是他作为一个 startup 的 founder,怎么从一个 researcher 的角色过渡到一个创业者的经历,有很多的思考渗透其中。希望大家关注 Alluxio 的社区,如果有兴趣解决冲突的问题,也可以多了解他们的 solution,加入他们的开源社区平台。


另外李浩源博士,受邀在 2018 年 12 月 6 日中国大数据技术大会(BDTC 2018)主论坛上,作题为“Alluxio—统一化分布式虚拟文件系统”的主旨报告,敬请期待!同时也可以多关注我们 Robin.ly 平台里边的内容,后期会有更多类似的分享。谢谢!


李浩源:谢谢大家,谢谢 Alex!


查看原文链接https://www.robinly.info/blog/haoyuan-li-alluxio-robin-ly-entrepreneurship-talk


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-03-15 08:002877
用户头像
Robin.ly 硅谷AI科技、创业、领导力访谈

发布了 49 篇内容, 共 18.1 次阅读, 收获喜欢 59 次。

关注

评论

发布
暂无评论
发现更多内容

万里路,咫尺间:汽车与芯片的智能之遇

脑极体

智能汽车

ARTS打卡第三周

请务必优秀

Amazo S3 是如何实现 99.999999999% 的持久性和可用性的?

亚马逊云科技 (Amazon Web Services)

人工智能 负载均衡 生成式人工智能

2023-09-03:用go编写。给你一个 n 个节点的无向无根树,节点编号从 0 到 n - 1 给你整数 n 和一个长度为 n - 1 的二维整数数组 edges , 其中 edges[i] =

福大大架构师每日一题

福大大架构师每日一题

C++中的语法知识虚继承和虚基类

二哈侠

Go 条件

小万哥

Go 开源 程序员 后端 开发

系统设计 | 业务编号生成

少个分号

系统设计

重识Flutter状态管理 — 探索Flutter中的状态

编程的平行世界

flutter android 前端

ARTS 打卡第 3 周

AI帅辉

ARTS 打卡计划 AI算法

系统设计 | 如何管理应用系统中的配置?

少个分号

系统设计

Rhino 7 for Mac(犀牛3D建模软件) 7.32 中文激活版

mac

Rhino 7 苹果mac Windows软件 三维构建软件

系统设计 | 数据字典方案

少个分号

系统设计

探索图像数据中的隐藏信息:语义实体识别和关系抽取的奇妙之旅

汀丶人工智能

关系抽取 命名实体识别 智能文档

BetterMouse for Mac(鼠标增强软件) v1.5 (4028)永久激活版

mac

鼠标增强工具 苹果mac Windows软件 BetterMouse

ARTS打卡第3周

Johnson

ARTS 打卡计划

系统设计 | 分布式事务场景、概念和方案整理(含概念图)

少个分号

系统设计

Parallels Desktop 18 for Mac(Pd虚拟机) 18.3.2中文版

mac

pd虚拟机 苹果mac Windows软件

基于状态模式: 没有实践,再多的理论都是扯淡!!!

控心つcrazy

ARTS 打卡第 3 周

atom

系统设计 | "胖瘦" BFF:常见的两种微服务形态

少个分号

系统设计

系统设计 | 术语管理初探讨

少个分号

系统设计

系统设计 | 应用系统缓存策略

少个分号

系统设计

Tableau Desktop 2019 for Mac(全能数据分析工具) v2019.1.0中文激活版

mac

数据分析工具 Tableau Desktop 2019 苹果mac Windows软件 Tableau Desktop

QEMU之CPU虚拟化(三):虚拟机的创建

Linux内核拾遗

Linux Kenel 虚拟化 qemu kvm VT-x

CloudEon欢迎每一位开源贡献者加入!

CloudEon开源

构建高效实时数据流水线:Flink、Kafka 和 CnosDB 的完美组合

CnosDB

flink kafka 时序数据库 CnosDB

系统设计 | RESTful API 使用问题和建议

少个分号

系统设计

Spark Streaming 作者,Alluxio 的创始人李浩源:AI 潮流对做数据存储业务公司的挑战_大数据_Robin.ly_InfoQ精选文章