【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

DataPipeline CTO 陈肃:我们花了 3 年,重新定义数据集成

  • 2019-07-31
  • 本文字数:6247 字

    阅读完需:约 20 分钟

DataPipeline CTO 陈肃:我们花了 3 年,重新定义数据集成

近日,TGO 鲲鹏会DataPipeline CTO & TGO 鲲鹏会北京分会会员陈肃进行了专访,他谈及了 DataPipeline 的发展情况、数据应用集成行业、公司管理和个人经历等,以下为采访实录:


随着数据体量增大,更多企业意识到数据的重要性,开始注重数据,想要利用好数据。但现实情况是,重复和冗余的 IT 和应用程序基础架构导致成本增加;数据可信度和质量降低,阻碍了数据分析提供的价值和能力;影响端到端用户的体验等等。这不仅阻碍了数据的自由流动,更将数据分析引导决策扼杀在摇篮之中。那么如果想要做到精细化管理,挖掘大数据背后隐藏的价值,我们就必须打破数据孤岛。


目前,中国企业在大数据流通、交换、利用等方面仍处于起步阶段,但是企业应用数据集成市场却是庞大的。根据 Forrester 数据看来,2017 年全球数据应用集成市场纯软件规模是 320 亿美元,如果包括人工在内,将达到 3940 亿美元。


在数据应用集成领域中,既有 Oracle、SAP、微软、Informatica 等传统的 IT 大佬,更有众多的创新型企业,其中 DataPipeline 就是一家通过提供批流一体的数据融合、数据清洗、数据同步等服务,帮助企业连接内外部数据孤岛,实现数据交换与融合的公司。

一、打破数据孤岛,重新定义数据应用集成

TGO 鲲鹏会:请您详细介绍目前 DataPipeline 的主要战略和市场布局?


陈肃:DataPipeline 的目标客户集中于金融、零售、制造,地产、互联网行业,服务客户主要具备以下特征:大中型企业、数据价值密度较高、重视数据的时效性。


差异化战略包括:


1、支撑有大数据应用需求的大中型企业;


2、应用可以部署在云上;


3、实时性要求高,与以前批量化的不太一样;


4、能够支撑业务、数据、架构的变化;


5、用户体验方面,更强调自动化、智能化。


TGO 鲲鹏会:DataPipeline 所处赛道是数据应用集成,您是如何理解这个行业?


陈肃:目前,中国企业在大数据流通、交换、利用方面大部分还处于起步阶段,关键原因是没有做好数据集成、数据清洗、数据同步等基础工作。


我认为,接下来数据应用集成未来会产生 3 个变化:


第一,相较过去而言,会变得更加复杂。原来可能只有一些数据库中的结构化数据,但是现在有结构化、半结构化、非结构化数据,云上、云下、混合云的途径,数据库和数据仓库的对象存储等。


第二,时效性更强。以前数据流转比较慢,商业整体运转的速度也会慢一些,但随着企业实时决策要求的提高,我们需要根据数据做到及时分析,因此时效性要求也随之提升。


第三,高扩展性、灵活变化。随着社会的快速发展,业务部门对数据的需求也在时刻变化。这就意味着用户的 IT 架构、软件和整体发展战略都需要适应这种变化。


复杂度变高,时效性变快,架构变化的程度加深,是数据使用面临的三大挑战,但相应地也会产生一些新的机会。


TGO 鲲鹏会:您认为数据应用集成有多大的市场规模和潜力呢?


陈肃:Forrester 数据表明,2017 年全球数据应用集成市场纯软件规模是 320 亿美元,如果包括人工在内,将达到 3940 亿美元。


Gartner 数据也表明,应用数据集成的细分领域 iPaaS 在 2017 年首次突破了 10 亿美元,增长 72%。


TGO 鲲鹏会:当前数据应用集成赛道有哪些竞争对手呢?竞争焦点主要聚集在哪方面呢?


陈肃:参与市场竞争的企业很多,在数据应用集成领域,既有 Oracle、SAP、微软、Informatica 等传统的 IT 大佬,也不乏一些创新型企业。但相对新一代云化、大数据实时化的数据应用集成方面来说,新玩家偏少。在中国,数据应用集成企业实际上是比较缺失的。


目前,在数据应用集成这个赛道,一些企业偏重数据集成,一些偏重应用集成。还有一些诸如阿里这样做数据中台的企业,他们的覆盖面与创新企业相比更为广泛,其中或多或少都会有一些差异化,而在基础技术创新方面的企业数量更少。


另一方面,市场上也有一些应用长达 10 年的工具,它们都是基于传统的软件架构;而新出现的工具则偏云化,主要部署在云上,以分布式架构支持大量数据和实时应用的工具还是比较少的。


TGO 鲲鹏会:您认为 DataPipeline 的主要优势体现在什么方面呢?DataPipeline 采取了哪些战略?目前达到了什么样的效果呢?


陈肃:在技术上,DataPipeline 聚焦流式数据处理、高性能同步,快速解决数据融合问题。


在产品上,DataPipeline 是一家为企业提供批流一体数据融合服务的公司。通过提供数据的批流一体处理、任务调度、数据质量管理、可视化运维与监控、API 数据接入、元数据管理等功能,帮助客户更敏捷、高效地实现复杂异构数据源及目的地数据融合等综合服务,为客户灵活的数据消费需求提供强有力的技术驱动。


DataPipeline 已经成功服务了星巴克、喜茶、叮当快药等多家行业领先的企业客户,同时与数十家产业上下游合作伙伴建立了战略合作关系。


TGO 鲲鹏会:DataPipeline 下一步的规划是什么呢?


陈肃:会继续坚持既定的策略,以技术驱动来服务客户,同时会持续投入资源在客户成功上,为客户带来更大的价值。

二、平时多流汗,战场少流血

TGO 鲲鹏会:目前您在团队中打造什么样的团队文化,或者说有什么样的团队氛围及规则?


陈肃:DataPipeline 有明确的企业核心价值观,总结下来是客户成功和个人成长,具体有六条——即不忘初心、深挖本源、客户第一、言出必果、技术驱动、无私分享,技术团队的文化和这六条核心价值观一脉相承。


作为一家 ToB 企业,我们首先强调客户第一原则。运维、测试、开发都要把定位和解决客户问题放在自己工作的最高优先级。为了减少对日常研发工作的干扰,我们建立了轮岗制度,保证每周都有一个专门的团队来应对客户的支撑需求。客户环境是复杂的,有时候值班同学会遇到难以解决的棘手问题。无论何时,只要值班同学将问题抛到 On Call 群里,公司的技术骨干会立刻进行问题会诊、及时给予应对策略和建议,甚至立刻远程接入客户现场协助定位问题。当然,熬夜加班总归是不好的,所以我们有完善的倒休制度,保证员工身心健康。


我们每周至少会有一次团队的内部分享,分享内容可以是技术趋势、工作中的设计心得和技术点,也可以是健身技巧和旅游经历。一些较好的技术主题,经提炼后会由团队成员去开源社区的 meetup 进行分享。


我们强调技术驱动,只有能够通过程序解决的问题就不要采用“人肉”的办法,因此测试和运维团队的同事有很大一部分工作也是写代码,通过自动化测试和自动化运维来提升效率。如果研发和测试中遇到问题,我会鼓励他们尽可能地找到根本原因,用优雅的方式彻底解决问题。正所谓平时多流汗,战场少流血。


TGO 鲲鹏会:您在招聘过程中更看重成员哪些方面?


陈肃:面试时候主要看技术深度和理解力。


一般来说,求职者如果有好的学校背景,通过面试的概率要高一些,但我们也不是只看学校背景。面试过程中,求职者研发经历的真实性、体现出的技术深度、是否有关注技术论坛和阅读开源项目源码的习惯,这些都是我们着重考虑的点。


试用期的员工,我们会重点考察分析解决问题的能力以及抗压能力。


TGO 鲲鹏会:您是如何对团队成员做激励?激励的措施主要有哪些?


陈肃:2018 年初,我们建立了季度之星评选制度,旨在奖励每个季度做出突出贡献或取得显著进步的员工。在过去一年多时间里,获得季度之星的员工既有早期的技术骨干,也有新加入同事。我们通过这种形式选拔优秀的人才,赋予更多的责任,给予相应的回报。


随着公司人员的增长,我们在今年引入了绩效考核,以结果为导向评估员工的实际产出,作为晋升和调薪的主要依据。


技术人员选择一家企业,除了收入因素外,技术上的成长性也是重要的考量。DataPipeline 鼓励员工积极参与开源项目的研发,给予员工专门的时间做开源相关的工作。公司也乐于投入资源举办或参加技术论坛,让员工和领域内的高手交流,这也是大家觉得公司技术氛围很好的重要原因之一。


TGO 鲲鹏会:您平时会鼓励团队成员进行创新吗?主要是通过什么样的方式呢?


陈肃:创新是 DataPipeline 在竞争激烈的数据集成市场的生存之本。


我们公司的产品是基于开源框架 Kafka Connect 做的产品,为了适应业务需要,我们在这个开源框架基础上做了大量的改造和特性增强,包括端到端数据同步一致性、批流一体、源变化检测和自动适配,优化了框架的任务调度机制。


任何团队成员,只要有好的想法或者发现值得改进的点,都可以自由组织讨论会,邀请相关同事一起论证方案。当方案通过后,会根据优先级进行排期,纳入研发计划。我们特别重视员工自己提出的优化点,在评选季度之星和绩效评估时,我们也会优先考虑作出过这方面贡献的员工。

三、理解客户核心需求,尊重行业发展规律

TGO 鲲鹏会:能分享一下您的创业经历吗?在创业过程中,您印象最深刻的是什么事情?从中有什么收获吗?


陈肃:2010 年,我从中国科学院博士毕业后,第一份工作是在中国移动研究院做精准营销平台的算法工程师,后来逐步升任项目经理、用户行为实验室技术负责人。


2015 年初,我离开了中国移动研究院,和朋友开始了第一次创业。我们做了一家在线教育公司,主打英语培训,最初的想法是希望用机器学习技术,帮助用户提升学习效率。公司从 36 氪孵化器起家,获得天使轮融资,成为第二期毕业企业。


在初期,为了获取流量,我们尝试了做一些引流功能,例如实时的托福考位查询和考位预定。靠着这些引流应用,我们的用户日活增长很快,应用程序在 App Store 和主要国内 Android 市场的细分品类下的排名也长期位于前列,因此顺利拿到了 A 轮融资。


A 轮之后,我们开始做流量转化,开发了一系列付费课程以及配套的自适应学习系统。为提升直播交互体验,我们自研了一套不依赖视频流的直播系统,能够以极低的带宽需求进行课件直播,同时减少网络卡顿的影响。2016 年教师节,这套系统正式上线运营。之后的一年多时间里,我们开始验证公司的商业运行模式。但很遗憾,营收情况一直没有大的起色。2017 年底,公司被另一家在线教育公司收购。此后,我便加入了 DataPipeline,由 ToC 领域转向 ToB。


第一次创业,我印象最深刻的是,团队用了 45 天就做出了一款 App,并在 90 天内完成了天使轮融资,这种成就感和幸福感是无与伦比的。我深刻体会到,无论资源有多么匮乏,一群有着共同愿景目标的伙伴都能够克服困难,爆发出无穷的战斗力。但后来商业化尝试失败让我认识到,市场是残酷的,仅有技术创新不足以让一家创业企业存活。你需要深刻理解客户群体的核心诉求,尊重行业的自身规律,才有可能获得商业上的成功。


因为有了第一次的经历,我相信选择和努力同样重要,于是我选择在 DataPipeline 开始了第二次创业。尽管在过去三年多里,公司已经取得一定的成绩,但整个团队依然有非常强的生存危机感。更难能可贵的是,团队总是非常坦诚的去讨论这些问题:到底是客户选择有问题,还是产品功能不够丰富,亦或是某些方面的深度不足?团队成员之间没有埋怨和相互推脱,有的只是共同发现问题和解决问题,这让我非常欣慰。


TGO 鲲鹏会:目前您遇到最大的挑战是什么?有解决办法了吗?


陈肃:在中国做 ToB 企业服务有一个共性的挑战:服务产品化和客户需求个性化的矛盾。


我们发现,单纯靠产品很难完全满足客户,尤其是大客户的全部需求。一些共性的新需求可以放到产品迭代去解决,但是与客户的其它系统集成和一些偏具体业务逻辑的需求,则要由现场实施团队进行定制化开发来解决。


为了解决这个矛盾,我们做了以下尝试。首先,将产品接口对外开放,以便于客户将 DataPipeline 与自有系统进行集成,包括可以通过已有的调度系统来控制 DataPipeline 的任务行为;其次,我们提供了二次开发工具,遇到暂时没有以标准化组件提供的上下游连接器需求,可以由客户或我们的驻场团队快速开发;最后,我们尽可能将运维流程标准化,并开发了一套排查工具,可以让客户快速定位问题是来自 DataPipeline,还是定制开发部分。


这些尝试的最终目标是,实现产品的运维自助化,尽可能降低运维服务的人力和时间成本。


TGO 鲲鹏会:在您曾经解决过的难题中,最有成就感的是哪一次呢?


陈肃:相比于技术上的问题,我觉得如何协调好研发和客户服务是一个更大的难题。


在 DataPipeline 成立初期,人员很少,研发、售前、运维都是由几个开发人员扛起来的。不可否认的是,在一定时间内,这种模式体现出了它的高效性:开发人员对于业务逻辑和代码最熟悉,他们可以直接回答客户的各种细节问题,必要的时候还可以现场写代码解决程序 bug 和适配方面的问题。


随着客户数量的增长,这种粗分工模式越来越暴露出它的问题。第一,产品越来越复杂,对研发进度和质量的控制要求日趋严格。开发人员频繁因为客户支持被打断手头的工作,严重影响效率;第二,部分开发人员并不擅长和客户沟通,容易产生误解;第三,大部分现场问题都可以按照一个标准的流程定位和解决,从成本考虑,让开发人员去做现场排查并不经济。


于是,我们开始招募售前、运维团队,尝试将研发人员从客户服务中剥离。但面临一个新的难题:如何将知识和技能有效地传递给售前和运维团队。DataPipeline 的产品定位决定了我们的售前工程师通常需要和客户进行技术细节的交流,而运维工程师要做到快速定位问题发生的环节。


举例来说,客户反馈说数据同步慢,这个慢可能发生在上游读取、Kafka 的 IO、下游写入目的地等各个环节,又或者是集群任务调度因为某些原因陷入了不稳定状态。运维工程师要有能力进行甄别,解决运维层面的问题,协同研发人员定位解决疑似代码层面的问题。为了让售前和运维团队能够相对独立的服务客户,我们定了如下规矩:


1、所有售前和运维工程师进入公司后,从产品使用和技术原理方面开始集中培训。要求售前和运维都能够回答关于产品使用层面的问题,熟悉产品核心技术点,例如高可用、数据一致性、动态扩容、性能影响因素、高级清洗的使用等等。要求售前能够在客户现场进行 POC 部署,运维能够在研发不干预的情况下进行产品性能调优和故障排查;


2、研发人员只有在确定是 bug 和性能缺陷的情况下,才能直接和客户接触。其余问题一律通过售前人员或运维人员进行解答。遇到未知问题,售前人员和运维人员可以向研发需求帮助,并记录后放到知识库中。


通过这种方式,我们目前基本将研发人员从日常的客户服务中解放出来,也进一步提升了客户的服务满意度。


TGO 鲲鹏会:您如何看待参加类似 TGO 鲲鹏会里的技术管理者的社交活动,这样的活动对您有什么帮助吗?


陈肃:TGO 鲲鹏会是一个广阔的技术管理经验交流平台,大家可以通过小组月度会、GTLC 全球技术领导力峰会和线下专题讨论等方式,收获到来自不同行业成员分享的技术管理经验和公司经营方法论。


在 TGO 鲲鹏会组织的众多活动中,我最喜欢小组月度会的形式,因为大家可以围绕一个主题,展开充分的讨论,聊得非常深入。在一个私密的环境里,大家会把工作中趟出的路、踩过的坑毫无保留的分享出来。从人员招聘到团队管理,从客户选择到处理与公司合伙人的关系等等,你很难在其它的社交活动中得到这么多高价值的信息。


TGO 鲲鹏会的成员来自各个行业,有我们潜在的客户,也有上下游的合作伙伴。基于 TGO 鲲鹏会的平台,大家能够更加深入地了解彼此,促进各个层面的合作。




TGO鲲鹏会,是极客邦科技旗下高端技术人聚集和交流的组织,旨在组建全球最具影响力的科技领导者社交网络,线上线下相结合,为会员提供专享服务。目前,TGO 鲲鹏会已在北京、上海、杭州、广州、深圳、成都、硅谷、台湾、南京、厦门、武汉、苏州十二个城市设立分会。现在全球拥有在册会员 800+ 名,60% 为 CTO、技术 VP、技术合伙人。


会员覆盖了 BATJ 等互联网巨头公司技术领导者,同时,阿里巴巴王坚博士、同程艺龙技术委员会主任张海龙、苏宁易购 IT 总部执行副总裁乔新亮已经受邀,成为 TGO 鲲鹏会荣誉导师。


2019-07-31 14:122733
用户头像
刘家宇 InfoQ 编辑

发布了 176 篇内容, 共 53.2 次阅读, 收获喜欢 281 次。

关注

评论

发布
暂无评论
发现更多内容

图数据库有哪些:知名图数据库产品和应用场景介绍

悦数图数据库

数据库 图数据库

低代码平台实践

这我可不懂

低代码 零代码 JNPF 纯代码

Maxon MX6974 F5 Qualcomm QCN9074 embedded 4x4 industrial WiFi 6 Module

wifi6module

企业级私有化部署即时通讯,完美替代SaaS平台

WorkPlus

为什么Nop平台坚持使用XML而不是JSON或者YAML

canonical

json xml 低代码 Nop平台

第二周作业

大肚皮狒狒

面部表情识别的伦理问题与应对策略

来自四九城儿

LangChain + Streamlit + Llama:将对话式AI引入本地机器

3D建模设计

人工智能 LLM

企业级即时通讯协作和移动应用管理平台哪个品牌好?

WorkPlus

一云多芯能力再获认可!天翼云助推政企上云行稳致远!

天翼云开发者社区

云计算

业内首份!电信和互联网数据安全标准汇编发布(附下载)

极盾科技

数据安全

使用 ChatGPT 的代码解释器进行数据科学的 5 种方法

3D建模设计

Python 数据分析 ChatGPT

如何使用Redis实现分布式锁?

王磊

Java Java面试题

这款Linux不收费,却赢得了江湖!

高端章鱼哥

Linux 开源 npm

近期大型攻防演练观感及未来攻防趋势判断

墨菲安全

安全 软件供应链

文心一言 VS 讯飞星火 VS chatgpt (79)-- 算法导论7.4 4题

福大大架构师每日一题

福大大架构师每日一题

2023 ARTS 打卡第一周

Z.

ARTS 打卡计划

助力人工智能教育普及 宾果智能机器人走进全国千所小学

硬科技星球

2023.10.14-价值最大化沙盘演练

ShineScrum捷行

如何使用LLM实现文本自动生成视频

3D建模设计

Python 人工智能

2023 ARTS打卡第一周

犇犇

ARTS 打卡计划

从来不懂K8s的人在10分钟内将应用跑在了K8s中

北京好雨科技有限公司

Kubernetes 开发者 云原生 应用部署

Prompt-“设计提示模板:用更少数据实现预训练模型的卓越表现,助力Few-Shot和Zero-Shot任务”

汀丶人工智能

人工智能 Prompt prompt 工程

Dreamweaver 2021中文版下载 网页编辑软件dw2021纯净版

mac

苹果mac Windows软件 Dreamweaver 2021 网页编辑软件 DW021

提升研发效能的低代码思路

高端章鱼哥

自动化 研发效能 低代码 JNPF

面部表情识别技术的最新研究进展

来自四九城儿

一个炫酷的头像悬停效果 2

南城FE

CSS 前端 动画 SASS 交互

GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF。

汀丶人工智能

强化学习 ChatGPT AI大语言模型

面部表情识别技术在人机交互中的应用

来自四九城儿

使用three.js与WebGL相比有什么优势?

3D建模设计

WebGL three.js

学习 ChatGPT 一切基础知识的绝佳资源

3D建模设计

人工智能 ChatGPT LLM

DataPipeline CTO 陈肃:我们花了 3 年,重新定义数据集成_文化 & 方法_刘家宇_InfoQ精选文章