从 RDBMS 到 Snowflake 的复制 | 技术实践_数据集成_Arabinda Mohapatra_InfoQ精选文章



 写点什么

登录/注册



大小：428.77K时长：02:26

从 RDBMS 到 Snowflake 的复制 | 技术实践

问题陈述：

在仅有 8GB 内存的一台 Databricks Worker 上，将一张超过 1 亿条记录的 Oracle 表迁移到 Snowflake，需要一种高度优化、具备内存感知的方案，以避免失败并确保在严格的 2 小时时限内稳定执行。传统方法存在发生内存不足错误和资源利用低效的风险，因此需要一种策略，在无需额外增加集群资源的前提下，优先实现受控的数据流式处理、尽可能小的内存占用以及高效的写入操作。（使用 Databricks、PyArrow 和 Native Spark）

❌ 常见错误：

使用单线程的 Pandas to_sql() = 必然触及内存上限并失败。
未调优的直接 JDBC 读取 = 缓慢且不稳定。

✅ 优化策略：

1.来源：Oracle 并行读取

调优 JDBC 的 fetchsize 与 defaultRowPrefetch.
计算并限制分区数以获得最佳并行度。
使用谓词下推以高效进行数据切分。

2.暂存：DBFS 上的 Snappy Parquet

重新分区以避免小文件。
写入 Snappy Parquet 以发挥列式效率。

* 避免小文件—合理使用 coalesce() 或 repartition()

* Parquet 块大小 128MB

创建稳定的分布式检查点。

3.处理：用 PyArrow 分块，而非 Pandas

按*row groups**迭代，而不是一次处理整个数据集。

使用 pyarrow.parquet.ParquetFile() 打开文件
通过.read_row_group() or .read_raw_group()读取每个分组

*至关重要的是跳过 Pandas 转换**，以避免 driver 端 OOM.

*直接转换为 Spark DataFrame，以进行分布式处理。

4.加载：使用 Native Spark Writer 至 Snowflake

使用 spark-snowflake 连接器进行并行、高吞吐写入。
利用 Snowflake 的 Apache Arrow 集成以提升速度。

5.稳定性：显式内存清理

在每个分块处理后删除 DataFrame 引用。

*删除 DataFrame 对象

*显式丢弃所有列以释放内存

手动触发垃圾回收 (gc.collect()).
防止长时作业中的内存泄漏。结果：在单个 8GB worker 节点上对 1 亿+记录实现稳定执行，并在可预测的 2 小时窗口内完成（Approx）。

声明：本演示中所表达的观点和意见仅代表作者个人，并不必然反映 Novartis 或其任何附属机构或管理人员的官方政策或立场。

原文地址：

https://www.linkedin.com/pulse/rdbms-snowflake-copying-arabinda-mohapatra-pd3tc/?trackingId=BijEcXy2R12tcGL7PQ410A%3D%3D

评论

发布

暂无评论

软件测试/测试开发丨探索AI与测试报告的完美结合，提升工作效率

人工智能程序员软件测试测试报告 ChatGPT

【案例教学】华为云API图像搜索ImageSearch的快捷性—AI帮助您快速归类图片

云计算软件开发华为云

直播预告 | 博睿学院：浅谈可观测性的价值

Zebec 生态 AMA 回顾：Nautilus 以及 $ZBC 的未来

前沿技术产业应用的未来

百度开发者中心

#人工智能文心一言文心大模型大模型微调

探索未来的人机交互方式

百度开发者中心

#人工智能生成式AI 文心大模型‘

极致优化 SSD 并行读调度

架构后端 SSD 企业号9月PK榜

在对接自有账户体系时，FinClip 是怎么做的？

对话在行人|远东数智采：数智底座创新，让招投标规范高效

2023全球商业创新大会对话在行人

面对一家营收上千亿的焦化厂，这家数科公司靠什么赋能业务？

数科公司 2023全球商业创新大会升级数智化底座

数据赋能健康发展，数造科技为某省妇幼医院搭建医疗数据科研平台

进阶训练技巧提升模型性能

百度开发者中心

#人工智能大模型微调千帆大模型平台

云测 | 打造终端智能测试平台，助力企业迈向高效质量管理

小程序支付宝小程序测试支付宝

快速而准确的MongoDB差异数据对比方法

数据库 mongodb 可视化界面数据对比 NineData

云的灵魂是人工智能

Databend 玩转 Local 模式

LP 流动性质押 DAPP 模式系统开发

我也能打造自己的「超级 App」？

软件测试/测试开发名企定向培养训练营，升职加薪快人一步！

软件测试测试开发

eosio.system智能合约介绍（四）合约部署介绍

如何选择美国多IP服务器租用，提升网站排名的秘密武器

一只扑棱蛾子

站群服务器

飞桨产品经理教你如何应用PaddleX

飞桨PaddlePaddle

LLM大模型微调：应用、策略与未来发展

百度开发者中心

#人工智能文心大模型千帆大模型平台