构建新的云原生系统或是将遗留系统云原生化,如何少走弯路?点击查看 了解详情
写点什么

首个来自中国的数据集成平台 SeaTunnel 成功进入 Apache 孵化器

Apache SeaTunnel

  • 2021 年 12 月 31 日
  • 本文字数:6939 字

    阅读完需:约 23 分钟

首个来自中国的数据集成平台 SeaTunnel 成功进入 Apache 孵化器

美国时间 2021 年 12 月 9 日,SeaTunnel(原名 Waterdrop) 正式通过 Apache 软件基金会的投票决议,以全票通过的优秀表现正式成为 Apache 孵化器项目。


根据 Apache 基金会邮件列表显示,在包含 14 个约束性投票 (binding votes) 和 9 个无约束性投票(non-binding votes) 的投票,评委全部持赞同意见,无弃权票和反对票。这也是 Apache 基金会中诞生的第一个来自中国的数据集成平台项目。

SeaTunnel 的前世今生


SeaTunnel 是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台,架构于 Apache Spark 和 Apache Flink 之上,支持海量数据的实时同步与转换。


SeaTunnel 原名 Waterdrop,于 2017 年由乐视创建,并于同年在 GitHub 上开源,2021 年 10 月改名为 SeaTunnel。


之所以要研发 SeaTunnel ,主要是因为当时市面上没有很好的、简单易用的、支持每天数百亿条数据同步的开源软件,SeaTunnel 的使命就是要将海量数据同步的能力传播到全世界,同时大大降低用户利用 Spark、Flink 等技术做数据集成的门槛。


从技术维度来谈,SeaTunnel 的目标可以归纳为:


  • 使用 Spark、Flink 作为底层数据同步引擎使其具备分布式执行能力,提高数据同步的吞吐性能

  • 集成多种能力缩减 Spark、Flink 应用到生产环境的周期与复杂度

  • 利用可插拔的插件体系支持超过 100 种数据源

  • 引入管理与调度能力做到自动化的数据同步任务管理

  • 特定场景做端到端的优化提升数据同步的数据一致性

  • 开放插件化与 API 集成能力帮助企业实现快速定制与集成

SeaTunnel 系统架构、工作流程与特性


在团队的努力下,SeaTunnel 的系统架构逐渐成型,2017 年对外开源后,SeaTunnel 很快获得了开发人员的认可。迄今为止,SeaTunnel 已经发布了 31 个版本 (目前推荐使用 1.5.6),在 Bilibili、新浪、水滴筹、搜狗、趣头条、唯品会等公司的生产实践中发挥着关键作用。

SeaTunnel 系统架构图


Input/Source[数据源输入] -> Filter/Transform[数据处理] -> Output/Sink[结果输出]


SeaTunnel 工作流程图


上图为 SeaTunnel 的整个工作流程,数据处理流水线由多个过滤器构成,以满足多种数据处理需求。如果用户习惯了 SQL,也可以直接使用 SQL 构建数据处理管道,更加简单高效。目前,SeaTunnel 支持的过滤器列表也在扩展中。


在插件方面,SeaTunnel 已支持 File、Hive/Hdfs、Kafka、Jdbc、ClickHouse、TiDB、HBase、Kudu 等 20 多种插件,同时也支持添加、校验、转换、日期、SQL 等处理插件,整体上基于系统非常易于拓展,用户还可以自行开发数据处理插件。


在这样的易拓展架构设计下,SeaTunnel 具有以下核心特性:


  • 组件丰富:内置丰富插件,支持各种数据产品的传输和集成

  • 高扩展性:模块化和插件化,支持热插拔, 带来更好的扩展性

  • 简单易用:特有的架构设计下,使得开发配置简单,无使用成本

  • 成熟稳定:经历大规模生产环境使用和海量数据的检验

  • 支持通过 SQL 进行数据处理和聚合

使用场景


SeaTunnel 的使用场景包括海量数据集成、数据 ETL、数据聚合以及多源数据处理等。如今,SeaTunnel 已应用于数十家企业生产环境,日均可稳定高效地同步数百亿条数据。


比如, SeaTunnel 解决了唯品会数据仓库入仓出仓、人群计算等场景中的难题;作为 B 站数据平台离线出入仓核心工具,SeaTunnel 在 B 站每天完成千亿级记录、百 T 级数据的出入仓,解决了我们电商、直播、创作中心等场景核心任务出入仓难题;微博一直播内部使用 SeaTunnel 的魔改定制源码搭建了实时的直播数仓入仓工具;趣头条数据中心使用 SeaTunnel 作为 Hive 到 Clickhouse 的离线同步工具;永辉云创科技旗下的新零售品牌永辉生活使用 SeaTunnel 进行电子商务用户行为数据的实时流式和离线 SQL 计算。

“Welcome to Apache incubator,SeaTunnel!”



从 2017 年创立,到如今进入 Apache 孵化器,SeaTunnel 正在进入一个全新的发展阶段。SeaTunnel 一进入孵化器就得到众多开源社区大咖们的祝福,包括 Apache 基金会董事吴晟、Apache 基金会成员 JiangNing, Ted Liu, GuoWei、腾讯开源联盟主席单致豪,PingCAP 联合创始人 & CTO 黄东旭、涛思数据 TDengine 创始人陶建辉、SphereEx 联合创始人 & CTO 潘娟、Apache HAWQ PMC 主席常雷、Apache Hudi PMC 李少峰、DataStax(Apache Cassandra 社区)中国总经理卢东明、Apache Doris PPMC 陈明雨、Apache RocketMQ PMC 杜恒, Elastic 中文社区创始人曾勇、巨杉数据库技术生态资深总监萧少聪等诸多开源数据生态大咖的联名祝贺。


其实 SeaTunnel 在孵化器讨论阶段就曾引起全球 Apache 孵化器导师的关注,“导师”报名数量远超过普通孵化项目,以至于 Apache 孵化器负责人 Justin 邮件提醒“导师不能过多”。也有导师在全球 Apache 孵化器讨论邮件列表里表示遗憾 —— Apache 孵化器项目 “旱的旱死,涝的涝死”,形容有的项目还要四处寻求导师才可以进入孵化器,有的项目则需要大家争抢导师职位,而 SeaTunnel 无疑是后者。


SeaTunnel 社区 PPMC 们表示:“始终以开放的心态,致力于让全球所有优秀的数据存储和计算引擎高效、准确、快速地进行跨数据源的同步、转化数据,让人们在多数据源场景下,可以快速、简单的完成自己的目标。我们相信在「The Apache Way」的指导下,社区将秉持更加开放包容的心态,欢迎更多贡献者加入,共同为中国开源事业添砖加瓦!”

感谢每一位贡献者!


SeaTunnel 凝聚了贡献者的智慧和心血,感谢项目的 Mentor 和 Committer 给予项目的指导,以及所有贡献者的参与! 


Champion


Mentors



PPMCs



贡献者

garyelephantRickyHuokid-xiongCalvinKirsyx91490leo65535cnmacsimon824wuchunfuzhongjiajienielifeng296431555dpchenxkhuangdehengkezhenxu94xtr1993zixi0825wolfboysgodlinessdailidongmdianjunchoucmeiwntpzhuangchongJNSimba


项目详情

目前 SeaTunnel 的所有源代码和所有相关文档已捐赠给 Apache Software Foundation。这些代码已经在 Apache License Version 2.0 下:


仓库地址: https://github.com/apache/incubator-seatunnel

网址:https://seatunnel.apache.org/

Proposal:https://cwiki.apache.org/confluence/display/INCUBATOR/SeaTunnelProposal

附录:


以祝福和希望为翼,直冲云霄!(以收到寄语时间为序)


  • 很高兴能做为 SeaTunnel 的领路人,带领项目进入 Apache 孵化器, 希望 SeaTunnel 在后续孵化过程中能茁壮成长,构建健康发展的社区,成为有国际影响力的开源项目。

——Apache 软件基金会 Member 姜宁,SeaTunnel Champion


  • 初心涓滴成流 (Waterdrop) 志向海纳百川 (SeaTunnel),祝贺 SeaTunnel 加入 Apache 孵化器大家庭!

——Apache 软件基金会 Member 刘天栋.Ted,SeaTunnel Mentor


  • 祝贺 SeaTunnel 成功进入 Apache 孵化器,预祝 SeaTunnel 做大做强,再创辉煌,顺利毕业!

—— Apache 软件基金会 IPMC 柯振旭,SeaTunnel Mentor


  • 祝贺 SeaTunnel 进去 Apache 孵化器,期待看到他们在 Apache 孵化器的成长,建立更为成熟的社区。

——Apache 软件基金会 董事 吴晟 Sheng Wu


  • There is high demand for convenient, easy to use and powerful tools for transferring and transforming large amounts of data. I'm happy to see that SeaTunnel has joined Apache incubator and I will follow its growth!

——Alexey Milovidov, ClickHouse.


  • 恭喜 SeaTunnel 进入 Apache 孵化器,希望 SeaTunnel 在社区中吸收更多营养茁壮成长。

—— 腾讯开源联盟主席 单致豪


  • 恭喜 SeaTunnel 进入 Apache 孵化器,很开心看到越来越多的中国开源项目发展壮大,预祝 SeaTunnel 早日发展成为一个成熟健康的开源社区,壮大中国开源力量。

——SphereEx 联合创始人 & CTO,Apache ShardingSphere PMC 潘娟(Trista)


  • 恭喜 SeaTunnel 加入 Apache 孵化器!SeaTunnel 作为一款简单易用、性能突出的海量数据处理产品,今年我们也实现了 SeaTunnel 的 Doris Spark/Flink Sink,希望打通从数据处理到数据分析的通路,能更好服务所有开源用户。我们也相信 SeaTunnel 进入孵化器后,在 Apache 之道的指引下社区可以进一步发展,有更多热爱开源的企业和个人开发者一同参与进来!最后预祝 SeaTunnel 可以早日毕业!

—— Apache Doris PPMC 陈明雨


  • 恭喜 SeaTunnel 成功进入 Apache 孵化器,很高兴看到围绕着数据流转又有一个新的优秀的开源项目出现,现在这个时代,说数据作为业务的核心一点不为过,而且数据存储方面的技术又在这个时代高度的细分化,数据库之间的同步和转化非常有必要,希望 SeaTunnel 成为打通数据孤岛的「桥梁」!

—— PingCAP 联合创始人 & CTO 黄东旭


  • 祝贺 SeaTunnel 进入 Apache 孵化器,越来越多的来自中国的孵化器项目表明了中国开源社区的活跃和技术贡献,非常高兴看到 SeaTunnel 社区在数据处理方面的新思考,期待再孵化过程中看到 SeaTunnel 社区的成长

—— Apache Kylin PMC Luke Han


  • 恭喜 SeaTunnel 成功进入 Apache 孵化器。现在是一个异构数据的时代,各种数据库、大数据平台之间需要一个开源、高效的连接器,希望 SeaTunnel 成为这个细分领域的领军者!

—— 涛思数据 TDengine 创始人陶建辉


  • 可喜可贺,恭喜 SeaTunnel 成功进入 Apache 孵化器,预祝团队再创辉煌!作为同是 Apache 基金会的 Cassandra 项目,期待与 SeaTunnel 深度整合。

—— DataStax(Cassandra) China 总经理 卢东明


  • 恭喜 SeaTunnel 进入 Apache 孵化器,SeaTunnel 是一个简单易用的数据同步组件,通过 SeaTunnel 可将数据更方便导入 Apache Hudi 数据湖中,也期待两个社区后续进行更深度的合作!

—— Apache Hudi PMC 李少锋


  • 只有流动的数据,才能激发其价值的释放,SeaTunnel 以海纳百川的志向,为上下游提供数据流动的利器。祝贺 SeaTunnel 成功进入 Apache 孵化器,预祝 SeaTunnel 成为成熟的技术社区。

—— 巨杉数据库 技术生态资深总监 萧少聪


  • SeaTunnel, 愿你们的技术在 Apache 孵化器里真正成长为数据海洋里具有无敌穿透力和超强连接力的平台。

—— OpenTEKr 创始人 狄安


  • 恭喜 SeaTunnel 进入 Apache 孵化器,希望 SeaTunnel 社区快速成长,传播 Apache way,服务更多开发者,成为海量数据处理领域明星级产品

——Apache RocketMQ PMC 杜恒


  • 恭喜 SeaTunnel 进入 Apache 孵化器,感谢项目对开源事业的贡献,这是一个好的开始,希望项目在开源大家庭中更好成长。

—— AWS 开发者运营 郭悦


  • SeaTunnel(原名水滴 / Waterdrop)通过提供如同《三体》中“水滴”探测器般强大的技术能力,为开源数据技术的发展做出了卓越贡献,成功入选 Apache 孵化器。我们期望看到越来越多像 SeaTunnel 这样的中国开源项目和社区涌现出来,中国开源事业的未来将是星辰大海!

—— Robert Yan, NEAR Foundation


  • 恭喜 SeaTunnel,成为 Apache 孵化项目中的新成员,更希望 SeaTunnel 社区能够更好的践行 Community Over Code 的理念,不断发展壮大,百尺竿头更进一步,早日毕业成为 Apache 顶级项目。

—— 开源社理事长 庄表伟


  • 恭喜 SeaTunnel,进入 Apache 孵化器,为我们有树立了一个学习的榜样!希望未来 SeaTunnel 社区能够发展壮大,我们多多交流,向你们学习!

—— 云溪数据库 吴昱


  • 恭喜 SeaTunnel,成功进入 Apache 孵化器,成为 Apache 项目中的一员。希望 SetTunnel 能够更好的发展好社区,吸引更多的人参与到开源贡献中来,让大家体会到参与开源的乐趣。

—— 极狐(GitLab) 马景贺


  • 恭喜 SeaTunnel,希望在 ASF 的孵化下,SeaTunnel 能够发展成为一个更加健康的开源项目社区,并调动国内更多参与者的积极性。

—— 开源中国(OSChina) 林日华


  • 在开源同仁的大力支持下,SeaTunnel 得以成功加入 Apache 孵化器,这是社区的力量。这意味着 SeaTunnel 迈入了一个新的阶段,未来会变得更活跃、更规范、更国际化,服务更多开发者。祝贺 SeaTunnel!加油!

—— 马红伟 百度开源办公室产品运营经理


  • 恭喜 SeaTunnel 成功进入 Apache 孵化器,希望这个项目能够发展壮大,引导更多的技术人才理解开源精神,践行开源理念完成社会创新,大家一起 Tech4Good!

—— 图鸥公益(NGO2.0)张倩


  • 恭喜 SeaTunnel 顺利进入 Apache 软件基金会孵化,希望未来能有机会在 The Apache Way 的引领下和 Kyuubi 社区产生更多交流与合作。

—— Kent Yao, Apache Kyuubi PPMC


  • 恭喜 SeaTunnel 进入 Apache 软件基金会孵化,滴水成河,绵延不绝,携手共进,汇聚开源星海。

—— 开源之夏 李梦


  • 恭喜 SeaTunnel,希望在 ASF 的孵化下,项目更加成熟稳健,更多开发者、用户从中受益,推动大数据开源和领域向前发展。

—— Apache InLong PPMC 张超


  • 恭喜 SeaTunnel 顺利进入 Apache 软件基金会孵化,预祝项目越来越好,社区越来越活跃,践行开源精神,服务更多开发者!

—— InfoQ 用户运营负责人 赵萌


  • 集聚开源力量,向世界展示中国。我们的征途是星辰大海。

—— GoodERP 开源俱乐部发起人 Jeff Wang


  • 恭喜 SeaTunnel,希望 SeaTunnel 不断践行开源精神,活跃技术社区,成为有国际影响力的项目。同时,也希望更多的中国开源项目和 SeaTunnel 一同走向国际!

—— 稀土掘金 月影(吴亮)


  • 恭喜 SeaTunnel 进入 Apache 孵化器!期待能和 SeaTunnel 互勉互助,携手并进,汇聚更多同行者,把 Apache 孵化器里的中国宝宝们早日培养壮大,共赴星辰大海。

—— Apache Linkis PPMC, 邸帅


  • 恭喜 SeaTunnel 进入 Apache 孵化器,开源力量不断积累壮大。随着数字化进程加速,产业对数据集成管理的需求会愈加迫切,希望 SeaTunnel 不断发展壮大,通过开源推动产业数字化发展。

—— 信通院 郭雪


  • 祝贺 SeaTunnel 成功进入 Apache 孵化器,期待未来在海量数据处理领域大放异彩!

—— 迪码科技 孙乐


  • 数据“水管”和数据“水库”是数字时代的两大基础设施,目前国内外有很多不同类型的“水库”,然而优秀的开源“水管”却很少。很高兴看到这一领域出现了一个优秀的开源项目,恭喜 SeaTunnel 成功进入 Apache 孵化器!

—— Greenplum 中国开源社区发起人,四维纵横创始人 姚延栋


  • SeaTunnel 以出色的插件化和模块化架构设计,帮助用户灵活高效地构建 Pipeline 通道,轻松应对了各种复杂业务场景。SeaTunnel 开源社区也日益壮大,群英荟萃,未来可期!

—— Apache Druid PMC 金嘉怡


  • 恭喜 SeaTunnel 成功进入 Apache 孵化器,很高兴看到又一个中国的优质开源项目走上国际舞台,开源路漫漫但水滴石穿,加油!

— Elastic 中文社区创始人、INFINI Labs 创始人 曾勇


  • 数据引擎进入场景时代,越来越丰富的数据引擎之间的数据同步、转化有大量的需求存在,希望 SeaTunnel 可以全球开发者提供高效、稳定的数据传输工具。

—— Apache Foundation Member 郭炜,SeaTunnel Mentor


  • SeaTunnel 有望成为 Apache 生态里支持海量数据同步与转换的强大平台,想做好并不容易、是一个有技术挑战的旅程,但我非常看好一起做开源贡献的这帮伙伴们,加油,同时欢迎更多伙伴的加入,共建开源伊甸园。

—— 白鲸开源联合创始人 & Apache DolphinScheduler VP 代立冬,SeaTunnel Mentor


在加入孵化器之际,社区也收到了来自用户代表的祝福。


用户代表


  • 恭喜 SeaTunnel 顺利进入 Apache 孵化器,感谢它解决了我们数据仓库入仓出仓、人群计算等场景中的难题。衷心祝愿 SeaTunnel 茁壮成长,在开源的道路上,百尺竿头,更进一步!


—— 唯品会 Olap 团队负责人 王玉


  • 恭喜 SeaTunnel 顺利进入 Apache 孵化器,SeaTunnel 作为 B 站数据平台离线出入仓核心工具,在 B 站每天完成千亿级记录、百 T 级数据的出入仓,解决了我们电商、直播、创作中心等场景核心任务出入仓难题。祝愿 SeaTunnel 早日成为 Apache 顶级项目,成为又一个优秀的开源项目。

—— 哔哩哔哩资深开发工程师 张宗耀


衷心欢迎更多人加入!


能够进入 Apache 孵化器,SeaTunnel 新的路程才刚刚开始,但社区的发展壮大需要更多人的加入。我们相信,在「Community Over Code」(社区大于代码)、「Open and Cooperation」(开放协作)、「Meritocracy」(精英管理)、以及「多样性与共识决策」等 The Apache Way 的指引下,我们将迎来更加多元化和包容的社区生态,共建开源精神带来的技术进步!


我们诚邀各位有志于让本土开源立足全球的伙伴加入 SeaTunnel 贡献者大家庭,一起共建开源!



联系我们:


  1. 开发邮件列表:dev@seatunnel.apache.org

加入 Slack: https://join.slack.com/t/apacheseatunnel/shared_invite/zt-10u1eujlc-g4E~ppbinD0oKpGeoo_dAw

关注 Twitter: https://twitter.com/ASFSeaTunnel


秉持开源精神,乐视、白鲸开源科技与开源社区一起致力于 SeaTunnel 的发展完善及与 Apache 等生态圈的融合。目前,SeaTunnel 已经与多个 Apache 项目完成整合,包括 Apache DolphinScheduler,Apache Spark, Apache Flink, Apache Hadoop, Apache Hudi,Apache HBase ,Apache Kudu 等等。


成立四年以来,SeaTunnel 已通过组织不同形式的活动,如 Meetup 收获了无数开发者、运营和布道者人才加入,用户群体目前已超过 2000 人。


未来,我们欢迎有更多志同道合的人加入开源共建,在遵循 Apache 原则的基础上,共同让 SeaTunnel 在众多开源项目中成为一颗耀眼的新星!


2021 年 12 月 31 日 15:458151

评论 3 条评论

发布
用户头像
想加入 Apache SeaTunnel 官方微信用户群欢迎添加微信: easyworkflow,有兴趣参与开源贡献的也请说明哈
2022 年 01 月 04 日 17:41
回复
换个阵地,感觉在知乎还能遇到代总
2022 年 01 月 06 日 15:24
回复
用户头像
牛哈

2022 年 01 月 04 日 11:57
回复
没有更多了
发现更多内容

我的关注清单

lmymirror

知识管理 关注清单 RSS

哲少荐书:这才是心理学

Jackey

心理学 读书

写在2020年五四青年节

耿老的竹林

个人成长

如何成为一个高效的问题解决者?

汪锋

五十年前的一桩公案:数据库关系模型的流行史(上)

青菜年糕汤

数据库 分布式数据库 数据库规范 关系型数据库 数据库设计

Web3极客日报#135

谢锐 | Frozen

区块链 独立开发者 技术社区 Rebase Web3 Daily

下一个阶段,就真的容易了吗?

ke_lv

生活

思维偏差与产品设计的关联思考

石君

产品设计 思维方式 安全产品设计

虚拟化Pod性能比物理机还要好,原因竟然是这样!

亨利笔记

Kubernetes 容器 k8s vSphere pod

python中的GIL锁和互斥锁问题

半面人

Python

python oop 指南

志学Python

Python python 爬虫 oop

架构师们必备的三三制需求分析思维模型

常平

File类的文件操作

Howe

Java File 文件 io

中台是为了复用?未必!浅谈产业中台建设的特点与误区

孤岛旭日

架构 中台 企业中台 企业架构 产业互联网

用 Vim 编辑 Markdown 时直接粘贴图片

mzlogin

vim markdown

我看拼多多黄峥:旧世界瓦解冰消

池建强

拼多多 黄峥

一文带你搞懂RPC核心原理

松花皮蛋me

微服务 RPC 远程调用

聊天机器人为什么这么难?

青菜年糕汤

人工智能 自然语言处理 搜索引擎 chatbot 聊天机器人

我在极客大学算法训练营的收获

熊斌

极客时间 极客大学

五十年前的一桩公案:数据库关系模型的流行史(下)

青菜年糕汤

数据库 分布式数据库 数据库规范 关系型数据库 数据库设计

Netty 源码解析(五): Netty 的线程池分析

猿灯塔

游戏夜读 | 做游戏选什么专业?

game1night

leetcode20.有效的括号

Damien

算法 LeetCode

实战营第一战:FizzBuzz

escray

学习 CSD 认证实战营

轻轻一扫,立刻扣款,付款码背后的原理你不想知道吗?

楼下小黑哥

支付宝 微信支付 支付系统 付款码

源码浅析 - CocoaLumberjack 3.6 之 DDLog

Edmond

ios log4j CocoaLumberjack SourceCode DDLog

Web3极客日报#134

谢锐 | Frozen

区块链 独立开发者 技术社区 Rebase Web3 Daily

译文MapReduce:大型集群上的简化数据处理

海神名

mapreduce 译文 MIT 分布式计算

企业如何选择物联网中台

老任物联网杂谈

物联网中台 IOT Platform 物联网平台

缘起:很久很久以前

escray

学习 测试驱动开发实战营

Java并发编程系列——线程池

孙苏勇

Java Java并发 并发编程 多线程 线程池

首个来自中国的数据集成平台 SeaTunnel 成功进入 Apache 孵化器_开源_InfoQ精选文章