【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

数据中台下半场,奇点云走向云原生

  • 2021-05-26
  • 本文字数:4512 字

    阅读完需:约 15 分钟

数据中台下半场,奇点云走向云原生

2020 年 9 月,伴随着云原生数据平台厂商 Snowflake 高调上市,“云原生”这个 2013 年就诞生的概念再度成为热词,被加入到众多数据平台厂商的广告语中。


是创业公司对资本圈风向的追随,还是重新看到了容器化、微服务等云原生技术带来的优势?亦或是因为时候到了——2020 年,中国 IT 预算里超过 50%的钱花在了云上,这不仅代表云计算已经成为了中国的主流,同时“非原住民”的数据问题也显得更加突出。


近日,在 StartDT Day 数据技术大会上,奇点云创始人、CEO 张金银(花名:行在)公开发布奇点云全新的数据技术战略:跨平台,云原生,自主可控


十个字,三个词,每一个词都代表着技术上硬碰硬的升级。在这其中,“云原生”再次被聚焦在舞台中央。



行在于 StartDT Day 数据技术大会


奇点云要做什么?为什么他们非要做“云原生”?

01 悄然生长的“云原生”

指针拨回 8 个月前,寻常的晚上,奇点云数据平台部负责人地雷收到了一封日报。日报来自平台部的运维工程师黑白,最后轻描淡写地加了一句话:“DataSimba 容器化编排已实现。”


DataSimba 是奇点云的数据中台产品,承担了企业数据治理、开发、管理、服务等职责,往下集成数据,往上搭载应用,也就是狭义上理解的“数据中台”。


地雷十分吃惊,容器化编排并不是团队安排给黑白的工作——当时,容器化编排还未排入 roadmap(产品路线图)。它意味着两件事:


一,2020 年疫情持续和业务爆发式增长的双重影响下,依旧有人在默默坚持,做长远的事。


二,在“云原生数据中台”的目标提出之前,DataSimba 就已往实现云原生前进了一步。


这更坚定了地雷做云原生数据中台的想法。


刚刚接手 DataSimba 时,为明确未来的发展路径,地雷做了一个月的调研,发现“云原生”不只是新一波的 buzzword 而已:


“打个比方,‘数据运维’,它在市场的宣传口径里很少见到,因为这是苦活累活,没有什么漂亮的东西。但我们和客户的 IT/运维同学是感同身受的——大数据集群规模大,进程多,非常需要微服务治理和其他智能运维技术。”地雷坦言,“云和大数据运维技术含量高,很多传统的运维工程师会面临比较大的学习成本。但是线上数据、计算和应用规模还在以每年 N 倍的速度增长。如果不采用 CI/CD(持续集成持续交付),而是坚持传统的人肉运维,先别说这种运维工程师的薪酬很高,你可能都招不到这么多合适的人。”


而在存储和计算成本层面,存储海量数据、作业高吞吐高并发的数据中台也对存算分离提出了更高的要求——如果把 Hadoop、Spark 等常规开源大数据引擎直接应用于云主机,海量数据带来的存储成本和吞吐压力,会很快“压垮”客户。因此,必须引入中间缓存实现计算存储分离,将数据存储到对象存储上,同时兼容 HDFS 协议,能够根据业务需求进行弹性扩容,从而大幅度降低成本,提高集群性能。


成本和效率问题,推动着数据中台必须走向云原生。这也意味着,云原生不仅仅是一个“技术议题”。


2020 年秋,经过创始人、合伙人探讨,行在于奇点云内部正式提出“云原生数据中台是数据中台的未来”,DataSimba 要成为云原生数据中台,要让客户享受到云基础设施的优势。


同期,地雷正式完成了 DataSimba 产品的排兵布阵:微服务对象体系、容器化、CI/CD、元数据管理、存算分离等云原生技术要素,由不同的产品经理分别把守,构筑起坚实的云原生技术结界。


此时,又有个新问题接踵而来:“云原生,是谁的‘云原生’?

02 业务驱动的“跨平台”

如果讲大数据领域的云原生技术,毋庸置疑,知名云厂商们比奇点云起步早得多,必然也成熟得多。


无论是存算分离,还是容器化、微服务,这些技术要素在云厂商提供的云原生产品中都是必备的,而且不断提供更精巧、更聪明的“语法糖”(Syntactic sugar),让客户觉得更好用。


“但那是云厂商的‘云原生’,不是客户的云原生。”刘莹说。


刘莹(花名:公主)是奇点云联合创始人、COO,毕业于复旦大学计算机系,曾任 IBM 全球副总裁总助、IBM 大中华区行业销售运营总经理,原阿里云西南大区业务总经理,阿里云大数据创新业务代言人。


作为一个有着 18 年 to B 行业经验的“老业务人”,她坚定认为“客户认可”至上,杜绝闭门造车、“技术自嗨”。


打个比方,客户在充分享受云原生妙处的同时,从一朵云迁移到另一朵云的成本越来越高,不能自由地选择云厂商,而且不同云厂商之间还要分别派人、用不同的账号管理,这样的云原生还香吗


没错,在奇点云,最早嗅到云原生跨平台必要性的或许是商务。


有一家全球领先的 ODM 公司,持续地为海内外客户提供有竞争力的硬件产品。奇点云在前期咨询时估算了其未来的数据量,必须要上云。


那么问题来了:数据放哪里,上哪家云?


它的业态非常特殊,海内外的这几家品牌恰好都有他们自己的云服务,如果把数据放在 A 云上,B 品牌不同意;如果数据放在 B 云上,A 品牌不同意;如果把不同品牌的数据分头放,对于企业本身来说又大大增加了管理和分析成本,不利于未来数智化的发展。短期来看,企业只能找到一家目前还没有这块业务的云厂商 C,把经营、运营等数据放在 C 云上,先把数据中台搭起来。


这同时也存在一个隐患,出于产品耦合性的考虑,企业越晚迁移,迁移成本就越大,而在组织层面,未来潜在成本的问题又没有落到任何一个人的 KPI 上,大家都不知道谁来解、怎么解。


“常有人说云资源像电力资源。但不同的是,有些地方产电很便宜,可工厂的选址是固定的,它不可能想搬就搬去电力便宜的地方。”刘莹说,“云资源则不一样,企业是可以迁移去更划算的地方的。客户应该有自由选择的权利。


而另一边,地雷又在进行他的“隐秘工程”。


2020 年 7 月,地雷向高管汇报 DataSimba 的 roadmap 时,“夹带私货”提到了多 workspace 这个构想。在会上,行在并无多言,而在会后给地雷发了个 PPT,内容是几年前行在想做的 DataSimba 混合云方案。


两个“老技术人”一碰,地雷就明白了:“行在听懂了我的意思,哪怕这几年技术变了,我们的想法和方向是一样的。”


Talk is cheap, show me the code.


两三个月后,地雷带领团队“偷偷”地把多 workspace 在 DataSimba 上实现了第一版,再次向高管汇报。同时,一条从真实客户需求归纳出的结论,也自前线迅速传递至产品大后方:客户迫切需要支持跨平台的、中立第三方的云原生产品。


技术拓展商业边界,商业驱动技术升级。明确了客户需求,地雷在技术迭代上也更有底气。


在 5 月 20 日 StartDT Day 数据技术大会上,地雷介绍:


DataSimba R3.0 目前已实现跨云多域数据治理,支持海内外主流云厂商,包括 AWS、阿里云、华为云、腾讯云、京东云等等,实现统一账号、权限、审计的多 workspace 的兼容管理,并进一步提供数据安全和可信计算方案,从而提高基础设施的可控性和安全性。”



DataSimba R3.0 的跨云多域示意图


这意味着依托 DataSimba,企业可以实现分级多域部署跨云跨平台部署


用户、权限及配置统一在主域上修改,从域即可自动同步最新数据;客户可以自由在不同的地区采用不同的云厂商进行部署,避免商业因素、地域因素、单一云厂商因素等对其数据能力建设的影响。在保证单个域资源独立的情况下,多个域之间使用统一的权限和账号体系,运维和管理人员就无需在不同平台间切换使用,工作效率也大大提升。


这是因为我们选择和客户站在一起。”行在毫不避讳地表示,“奇点云是标准的乙方数据智能技术供应商,服务于泛零售、金融、政府、制造、运营商等行业,所以有动力做这两件事:一,尽可能优化架构,降低数据应用在 IaaS 上的计算、存储成本;二,实现跨云数据治理,因此客户在云平台的选择上可以更加从容、更加独立。也就是,哪儿好用用哪儿,哪儿便宜用哪儿。

03 客户可控的“自主可控”

相比跨平台、云原生,自主可控这块“硬骨头”则难啃得多。


有一天,地雷接到行在来电:“奇点云要做自己的引擎,要自主可控。”


“我以前在阿里云 ODPS 就是干这个的,ODPS 团队是全阿里最贵的团队,一百多个高级技术专家,做这一件事。奇点云一向最贴近客户,很现实主义,我们适合做吗?“地雷放下手中的事,跑到角落里和行在争论了快一个小时。


而行在坚持:“这件事有意义,必须做。”


地雷心里非常矛盾。曾在 AI 四小龙之一担任产品总监的他,其实切身体会过自主可控的重要性:“那时候上实体名单,我们突然啥都不能用了,不能用苹果电脑,也不能用 Windows,甚至不能用我们常用的浏览器上网。”


但毫无疑问,自主可控的数据引擎有很高的技术门槛。时至今日,国内实现自主可控数据引擎的公司用一只手数都嫌多。


2020 年 7 月,奇点云到一家金融机构投标。这家金融机构提到:“我们已经花钱买了 CDH 的版权,但如果美国宣布不允许中国公司用 CDH,那我们可能营业都成问题。这能不能解决?”


这个问题像一颗手榴弹,炸到了行在和地雷心里。彼时,华为 EDA 和国内高校 MATLAB 相继被美国禁用,几乎每一家金融机构都有着类似的担忧。在这样的国际政治经济环境下,自主可控(Independence),也就是在技术和业务上保证可持续供应,成为了奇点云的必选项。


最终,还是客户让他们下定决心:“不能让中国企业发展在数据基础设施上被‘卡脖子’。”


2021 年 5 月,奇点云正式发布其自主可控引擎 StartDT-EMR。它是自有可控的、支持各个类型大数据 Job 和 Service 的计算和存储引擎,在技术和业务上保证客户数据基础设施的多样化、可替换、可迭代和可掌握,并保证对关键点的持续创新。


“这未必意味着 100%国产或 100%推倒从头发明轮子。相反,应该尽可能融入开放生态,符合工业标准。”地雷介绍。


行在则将奇点云的自主可控归纳为“开放的,可被客户掌握的,可以被替换的,可以迭代的”。


它不受国际政治经济环境的影响,同时也不受厂商的控制。“它不是一个黑匣子。当出现问题,客户不用抱着一个黑匣子等待厂商上门来修,客户可以自己看到问题所在,可以去迭代和更新。”


自主可控,就是客户可控。”行在再次强调。




从阿里巴巴到奇点云,行在做过国内第一代 DBA,搭过第一代数仓,创建过 TCIF(淘宝消费者信息库)第一次打通消费者数据,也创建过阿里云数加平台(现 DataWorks),把大数据能力外化给社会。


走过近 20 年的大数据之路,“技术老兵”行在从没放下他“普惠大数据”的野心。怀揣着数据技术的理想,旅途的终点始终指向客户。


在 5 月 20 日的 StartDT Day 数据技术大会上,行在首次对外披露了一个数字:NRR235%。NRR(Net Revenue Retention)指净收入留存率,“举个例子,我们 2019 年的新客户花了 100 块购买奇点云的服务,他在 2020 年还花了 235 块,继续购买奇点云的服务。这代表着客户对我们充分的信任和认可。”行在颇为骄傲地说,“作为参考,Snowflake 在上市时 NDR(收入为美元,即 Net Dollar Retention),是 158%。”


而在 NRR235%之后,奇点云要做什么?


“跨平台,云原生,自主可控。”


十个字的数据技术战略后面,还跟着一句话:“和客户站在一起。”


这个战略的提出仰赖于五年来客户的不断鞭策,从客户的需求中来,在 DataSimba、数据智能产品套件、DataNuza 等数据产品和服务中承接落地,又回到客户的实践中去。



奇点云产品矩阵


奇点云把“机器智慧超越人类智慧的瞬间”称为奇点时刻:数据通过好的算法和应用创造价值,同时应用后又产生了更多有价值的数据,再次让算法和应用成长升级,赋能业务,形成一个越转越快的闭环,解放人类去思考创新。


很难说距离实现“奇点时刻”还有多久,好在奇点云还很年轻,脚踏实地之余,有足够的时间让他们仰望星空。

2021-05-26 13:592309

评论

发布
暂无评论
发现更多内容

Java—NIO

武师叔

6月月更

CRMEB知识付费如何二开阿里云短信功能

CRMEB

等保备案是什么意思?应该去哪里办理备案?

行云管家

等保 等级保护 等保备案 等级测评

再突破!阿里云进入Gartner云AI开发者服务挑战者象限

阿里云大数据AI技术

人工智能 机器学习 AI开发软件

融云:让银行轻松上“云”

融云 RongCloud

提高效率 Or 增加成本,开发人员应如何理解结对编程?

云智慧AIOps社区

团队协作 开发技巧 结对编程 开发技能 编程技巧

进销存软件排行榜前十名!

优秀

进销存管理系统 进销存系统

直播间源码在开发前期必须做的工作及开发步骤

开源直播系统源码

软件开发 直播源码

如何让销售管理更高效?

优秀

销售管理

阻塞、非阻塞、多路复用、同步、异步、BIO、NIO、AIO 一文搞定

C++后台开发

网络编程 linux开发 epoll IO多路复用 C++开发

创新实力再获认可!腾讯安全MSS获2022年度云原生安全守护先锋

腾讯安全云鼎实验室

云原生 云安全

首次曝光!唯一全域最高等级背后的阿里云云原生安全全景图

阿里巴巴云原生

阿里云 云原生 安全 可信云

MySQL使用ReplicationConnection导致的连接失效分析与解决

转转技术团队

MySQL JDBC Java’ 数据库·

Gartner最新报告:低代码应用开发平台在国内的发展

明道云

腾讯的技术牛人们,是如何完成全面上云这件事儿的?

科技热闻

Wallys/DR6018-S/ 802.11AX MU-MIMO OFDMA / 2* GE PORTS/WIFI 6e / BAND DUAL CONCURRENT

wallys-wifi6

web前端培训redux的理解与应用

@零度

前端开发

【二级等保】过二级等保用哪个堡垒机品牌好?

行云管家

网络安全 堡垒机 等级保护 二级等保 等保安全

用OBS做直播推流简易教程

boshi

直播 OBS

大数据培训 | 电商用户行为分析之订单支付实时监控

@零度

大数据 flink

A tour of gRPC:01 - 基础理论

BUG侦探

gRPC RPC buffer protocol

图解OneFlow的学习率调整策略

OneFlow

前沿技术 学习率 调整策略

如何解决 Iterative 半监督训练 在 ASR 训练中难以落地的问题丨RTC Dev Meetup

声网

RTC Dev Meetup 生态专栏 语音处理

基于Vite+React构建在线Excel

葡萄城技术团队

SpreadJS vite

Go 语言使用 MySQL 的常见故障分析和应对方法

百度Geek说

Go MySQL

数据中台稳定性的“四高” | StartDT Tech Lab 18

奇点云

数据库 大数据 数据中台 云原生

技术分享| WVP+ZLMediaKit实现摄像头GB28181推流播放

anyRTC开发者

音视频 推流 摄像头 GB28181 播放

Selenium Edge的IE模式

IT蜗壳-Tango

IT蜗壳教学 6月月更

冷板式、浸没式、喷淋式液冷散热能否引领高性能计算发展?

蓝海大脑GPU

基因检测,如何帮助患者对抗疾病?

阿里云弹性计算

高性能计算 生命科学 EHPC 基因检测

SaaS 云工具,产业互联网下的变革利器

小炮

数据中台下半场,奇点云走向云原生_云原生_此方_InfoQ精选文章