最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

数据中台下半场,奇点云走向云原生

  • 2021-05-26
  • 本文字数:4512 字

    阅读完需:约 15 分钟

数据中台下半场,奇点云走向云原生

2020 年 9 月,伴随着云原生数据平台厂商 Snowflake 高调上市,“云原生”这个 2013 年就诞生的概念再度成为热词,被加入到众多数据平台厂商的广告语中。


是创业公司对资本圈风向的追随,还是重新看到了容器化、微服务等云原生技术带来的优势?亦或是因为时候到了——2020 年,中国 IT 预算里超过 50%的钱花在了云上,这不仅代表云计算已经成为了中国的主流,同时“非原住民”的数据问题也显得更加突出。


近日,在 StartDT Day 数据技术大会上,奇点云创始人、CEO 张金银(花名:行在)公开发布奇点云全新的数据技术战略:跨平台,云原生,自主可控


十个字,三个词,每一个词都代表着技术上硬碰硬的升级。在这其中,“云原生”再次被聚焦在舞台中央。



行在于 StartDT Day 数据技术大会


奇点云要做什么?为什么他们非要做“云原生”?

01 悄然生长的“云原生”

指针拨回 8 个月前,寻常的晚上,奇点云数据平台部负责人地雷收到了一封日报。日报来自平台部的运维工程师黑白,最后轻描淡写地加了一句话:“DataSimba 容器化编排已实现。”


DataSimba 是奇点云的数据中台产品,承担了企业数据治理、开发、管理、服务等职责,往下集成数据,往上搭载应用,也就是狭义上理解的“数据中台”。


地雷十分吃惊,容器化编排并不是团队安排给黑白的工作——当时,容器化编排还未排入 roadmap(产品路线图)。它意味着两件事:


一,2020 年疫情持续和业务爆发式增长的双重影响下,依旧有人在默默坚持,做长远的事。


二,在“云原生数据中台”的目标提出之前,DataSimba 就已往实现云原生前进了一步。


这更坚定了地雷做云原生数据中台的想法。


刚刚接手 DataSimba 时,为明确未来的发展路径,地雷做了一个月的调研,发现“云原生”不只是新一波的 buzzword 而已:


“打个比方,‘数据运维’,它在市场的宣传口径里很少见到,因为这是苦活累活,没有什么漂亮的东西。但我们和客户的 IT/运维同学是感同身受的——大数据集群规模大,进程多,非常需要微服务治理和其他智能运维技术。”地雷坦言,“云和大数据运维技术含量高,很多传统的运维工程师会面临比较大的学习成本。但是线上数据、计算和应用规模还在以每年 N 倍的速度增长。如果不采用 CI/CD(持续集成持续交付),而是坚持传统的人肉运维,先别说这种运维工程师的薪酬很高,你可能都招不到这么多合适的人。”


而在存储和计算成本层面,存储海量数据、作业高吞吐高并发的数据中台也对存算分离提出了更高的要求——如果把 Hadoop、Spark 等常规开源大数据引擎直接应用于云主机,海量数据带来的存储成本和吞吐压力,会很快“压垮”客户。因此,必须引入中间缓存实现计算存储分离,将数据存储到对象存储上,同时兼容 HDFS 协议,能够根据业务需求进行弹性扩容,从而大幅度降低成本,提高集群性能。


成本和效率问题,推动着数据中台必须走向云原生。这也意味着,云原生不仅仅是一个“技术议题”。


2020 年秋,经过创始人、合伙人探讨,行在于奇点云内部正式提出“云原生数据中台是数据中台的未来”,DataSimba 要成为云原生数据中台,要让客户享受到云基础设施的优势。


同期,地雷正式完成了 DataSimba 产品的排兵布阵:微服务对象体系、容器化、CI/CD、元数据管理、存算分离等云原生技术要素,由不同的产品经理分别把守,构筑起坚实的云原生技术结界。


此时,又有个新问题接踵而来:“云原生,是谁的‘云原生’?

02 业务驱动的“跨平台”

如果讲大数据领域的云原生技术,毋庸置疑,知名云厂商们比奇点云起步早得多,必然也成熟得多。


无论是存算分离,还是容器化、微服务,这些技术要素在云厂商提供的云原生产品中都是必备的,而且不断提供更精巧、更聪明的“语法糖”(Syntactic sugar),让客户觉得更好用。


“但那是云厂商的‘云原生’,不是客户的云原生。”刘莹说。


刘莹(花名:公主)是奇点云联合创始人、COO,毕业于复旦大学计算机系,曾任 IBM 全球副总裁总助、IBM 大中华区行业销售运营总经理,原阿里云西南大区业务总经理,阿里云大数据创新业务代言人。


作为一个有着 18 年 to B 行业经验的“老业务人”,她坚定认为“客户认可”至上,杜绝闭门造车、“技术自嗨”。


打个比方,客户在充分享受云原生妙处的同时,从一朵云迁移到另一朵云的成本越来越高,不能自由地选择云厂商,而且不同云厂商之间还要分别派人、用不同的账号管理,这样的云原生还香吗


没错,在奇点云,最早嗅到云原生跨平台必要性的或许是商务。


有一家全球领先的 ODM 公司,持续地为海内外客户提供有竞争力的硬件产品。奇点云在前期咨询时估算了其未来的数据量,必须要上云。


那么问题来了:数据放哪里,上哪家云?


它的业态非常特殊,海内外的这几家品牌恰好都有他们自己的云服务,如果把数据放在 A 云上,B 品牌不同意;如果数据放在 B 云上,A 品牌不同意;如果把不同品牌的数据分头放,对于企业本身来说又大大增加了管理和分析成本,不利于未来数智化的发展。短期来看,企业只能找到一家目前还没有这块业务的云厂商 C,把经营、运营等数据放在 C 云上,先把数据中台搭起来。


这同时也存在一个隐患,出于产品耦合性的考虑,企业越晚迁移,迁移成本就越大,而在组织层面,未来潜在成本的问题又没有落到任何一个人的 KPI 上,大家都不知道谁来解、怎么解。


“常有人说云资源像电力资源。但不同的是,有些地方产电很便宜,可工厂的选址是固定的,它不可能想搬就搬去电力便宜的地方。”刘莹说,“云资源则不一样,企业是可以迁移去更划算的地方的。客户应该有自由选择的权利。


而另一边,地雷又在进行他的“隐秘工程”。


2020 年 7 月,地雷向高管汇报 DataSimba 的 roadmap 时,“夹带私货”提到了多 workspace 这个构想。在会上,行在并无多言,而在会后给地雷发了个 PPT,内容是几年前行在想做的 DataSimba 混合云方案。


两个“老技术人”一碰,地雷就明白了:“行在听懂了我的意思,哪怕这几年技术变了,我们的想法和方向是一样的。”


Talk is cheap, show me the code.


两三个月后,地雷带领团队“偷偷”地把多 workspace 在 DataSimba 上实现了第一版,再次向高管汇报。同时,一条从真实客户需求归纳出的结论,也自前线迅速传递至产品大后方:客户迫切需要支持跨平台的、中立第三方的云原生产品。


技术拓展商业边界,商业驱动技术升级。明确了客户需求,地雷在技术迭代上也更有底气。


在 5 月 20 日 StartDT Day 数据技术大会上,地雷介绍:


DataSimba R3.0 目前已实现跨云多域数据治理,支持海内外主流云厂商,包括 AWS、阿里云、华为云、腾讯云、京东云等等,实现统一账号、权限、审计的多 workspace 的兼容管理,并进一步提供数据安全和可信计算方案,从而提高基础设施的可控性和安全性。”



DataSimba R3.0 的跨云多域示意图


这意味着依托 DataSimba,企业可以实现分级多域部署跨云跨平台部署


用户、权限及配置统一在主域上修改,从域即可自动同步最新数据;客户可以自由在不同的地区采用不同的云厂商进行部署,避免商业因素、地域因素、单一云厂商因素等对其数据能力建设的影响。在保证单个域资源独立的情况下,多个域之间使用统一的权限和账号体系,运维和管理人员就无需在不同平台间切换使用,工作效率也大大提升。


这是因为我们选择和客户站在一起。”行在毫不避讳地表示,“奇点云是标准的乙方数据智能技术供应商,服务于泛零售、金融、政府、制造、运营商等行业,所以有动力做这两件事:一,尽可能优化架构,降低数据应用在 IaaS 上的计算、存储成本;二,实现跨云数据治理,因此客户在云平台的选择上可以更加从容、更加独立。也就是,哪儿好用用哪儿,哪儿便宜用哪儿。

03 客户可控的“自主可控”

相比跨平台、云原生,自主可控这块“硬骨头”则难啃得多。


有一天,地雷接到行在来电:“奇点云要做自己的引擎,要自主可控。”


“我以前在阿里云 ODPS 就是干这个的,ODPS 团队是全阿里最贵的团队,一百多个高级技术专家,做这一件事。奇点云一向最贴近客户,很现实主义,我们适合做吗?“地雷放下手中的事,跑到角落里和行在争论了快一个小时。


而行在坚持:“这件事有意义,必须做。”


地雷心里非常矛盾。曾在 AI 四小龙之一担任产品总监的他,其实切身体会过自主可控的重要性:“那时候上实体名单,我们突然啥都不能用了,不能用苹果电脑,也不能用 Windows,甚至不能用我们常用的浏览器上网。”


但毫无疑问,自主可控的数据引擎有很高的技术门槛。时至今日,国内实现自主可控数据引擎的公司用一只手数都嫌多。


2020 年 7 月,奇点云到一家金融机构投标。这家金融机构提到:“我们已经花钱买了 CDH 的版权,但如果美国宣布不允许中国公司用 CDH,那我们可能营业都成问题。这能不能解决?”


这个问题像一颗手榴弹,炸到了行在和地雷心里。彼时,华为 EDA 和国内高校 MATLAB 相继被美国禁用,几乎每一家金融机构都有着类似的担忧。在这样的国际政治经济环境下,自主可控(Independence),也就是在技术和业务上保证可持续供应,成为了奇点云的必选项。


最终,还是客户让他们下定决心:“不能让中国企业发展在数据基础设施上被‘卡脖子’。”


2021 年 5 月,奇点云正式发布其自主可控引擎 StartDT-EMR。它是自有可控的、支持各个类型大数据 Job 和 Service 的计算和存储引擎,在技术和业务上保证客户数据基础设施的多样化、可替换、可迭代和可掌握,并保证对关键点的持续创新。


“这未必意味着 100%国产或 100%推倒从头发明轮子。相反,应该尽可能融入开放生态,符合工业标准。”地雷介绍。


行在则将奇点云的自主可控归纳为“开放的,可被客户掌握的,可以被替换的,可以迭代的”。


它不受国际政治经济环境的影响,同时也不受厂商的控制。“它不是一个黑匣子。当出现问题,客户不用抱着一个黑匣子等待厂商上门来修,客户可以自己看到问题所在,可以去迭代和更新。”


自主可控,就是客户可控。”行在再次强调。




从阿里巴巴到奇点云,行在做过国内第一代 DBA,搭过第一代数仓,创建过 TCIF(淘宝消费者信息库)第一次打通消费者数据,也创建过阿里云数加平台(现 DataWorks),把大数据能力外化给社会。


走过近 20 年的大数据之路,“技术老兵”行在从没放下他“普惠大数据”的野心。怀揣着数据技术的理想,旅途的终点始终指向客户。


在 5 月 20 日的 StartDT Day 数据技术大会上,行在首次对外披露了一个数字:NRR235%。NRR(Net Revenue Retention)指净收入留存率,“举个例子,我们 2019 年的新客户花了 100 块购买奇点云的服务,他在 2020 年还花了 235 块,继续购买奇点云的服务。这代表着客户对我们充分的信任和认可。”行在颇为骄傲地说,“作为参考,Snowflake 在上市时 NDR(收入为美元,即 Net Dollar Retention),是 158%。”


而在 NRR235%之后,奇点云要做什么?


“跨平台,云原生,自主可控。”


十个字的数据技术战略后面,还跟着一句话:“和客户站在一起。”


这个战略的提出仰赖于五年来客户的不断鞭策,从客户的需求中来,在 DataSimba、数据智能产品套件、DataNuza 等数据产品和服务中承接落地,又回到客户的实践中去。



奇点云产品矩阵


奇点云把“机器智慧超越人类智慧的瞬间”称为奇点时刻:数据通过好的算法和应用创造价值,同时应用后又产生了更多有价值的数据,再次让算法和应用成长升级,赋能业务,形成一个越转越快的闭环,解放人类去思考创新。


很难说距离实现“奇点时刻”还有多久,好在奇点云还很年轻,脚踏实地之余,有足够的时间让他们仰望星空。

2021-05-26 13:592319

评论

发布
暂无评论
发现更多内容

网站开发进阶(五)网站发布之道

No Silver Bullet

Apache tomcat IIS 5月月更 网站发布

读《Software Engineering at Google》(18)

术子米德

架构师成长笔记

SAP 电商云的 Spartacus Storefront 部署到 CCV2 的前提条件

Jerry Wang

typescript 电商 SAP commerce 5月月更

maven构建docker镜像三部曲之三:推送到远程仓库(内网和阿里云)

程序员欣宸

Java Docker 5月月更

互联网跨界造芯的“菊与刀”

IC男奋斗史

芯片 芯片行业思考

Go链表与切片比较

jinjin

List 链表 slice Go 语言 切片

C语言总结_字符串全方位练习

DS小龙哥

5月月更

不造芯,不配做互联网巨头

IC男奋斗史

芯片行业思考

DevOps系列之 —— DevOps概览(二)新型软件技术及交付模式

若尘

DevOps 5月月更

用户体验思维 7 大陷阱

龙国富

产品设计 UI UX 用户体验 产品设计与思考

SecurityContextHolder之策略模式源码分析

急需上岸的小谢

5月月更

Git进阶系列 | 3. 基于Pull Request实现更好的协作

俞凡

git 最佳实践

超级原始人系列盲盒即将上线,PlatoFarm赋能超多权益

西柚子

nginx配置系列(五)限制连接数

乌龟哥哥

5月月更

【愚公系列】2022 年 05 月 二十三种设计模式(三)-建造者模式(Builder Pattern)

愚公搬代码

5月月更

Git进阶系列 | 5. Rebase vs Merge

俞凡

git 最佳实践

网站开发进阶(九)应用内存检测

No Silver Bullet

内存泄露 变量声明 5月月更

[Day34]-[二叉树]有序链表转换二叉搜索树

方勇(gopher)

LeetCode 二叉树 数据结构和算法

《数据中心白皮书 2022》揭秘“东数西算”下数据中心高性能计算的六大趋势八大技术

蓝海大脑GPU

Git进阶系列 | 4. 合并冲突

俞凡

git 最佳实践

Git进阶系列 | 6. 交互式Rebase

俞凡

git 最佳实践

使用MyBatis-Plus代码生成器(数据库MySQL/Sqlite

芝士味的椒盐

Java mybatis 5月月更

读《Software Engineering at Google》(22)

术子米德

架构师成长笔记

读《Software Engineering at Google》(24)

术子米德

架构师成长笔记

开源字节系统白皮书

源字节1号

软件开发

电阻电路的等效变换 (Ⅱ)

謓泽

5月月更

如何登录到你的 WordPress 管理仪表板

海拥(haiyong.site)

5月月更

毕业设计-设计电商秒杀系统

默光

秒杀架构设计 架构训练营5期

【愚公系列】2022年05月 二十三种设计模式(二)-抽象工厂模式(Abstract Factory Pattern)

愚公搬代码

5月月更

读《Software Engineering at Google》(23)

术子米德

架构师成长笔记

MyBatis 的动态 SQL超详细讲解

顾言

mybatis 动态SQL

数据中台下半场,奇点云走向云原生_云原生_此方_InfoQ精选文章