阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

Oracle 19c 迁移遇到大容量 lob 表怎么办?

  • 2020-08-02
  • 本文字数:2186 字

    阅读完需:约 7 分钟

Oracle 19c迁移遇到大容量lob表怎么办?

本文由 dbaplus 社群授权转载。

背景

从 Oracle 数据库官方服务支持生命周期表,我们可以清晰看到 Oracle 11g 已过主支持生命周期,2020 年后不再支持。基于这个背景,某客户的应用系统数据库将从 IBM AIX 小型机环境迁移到某国产数据库一体机,同时数据库版本从 11g 直接升级为 19c。


LOB 字段带来的问题

经过分析,此数据库的数据量不大,只有区区 3TB,同时由于停机时间非常充分,可以考虑采取数据泵 datapump 的方式实现数据迁移。但是在仔细查看后,发现数据库中有个单表 2TB,仔细再查 2TB 基本全是 lob 字段,且不是分区表,这个问题就有点棘手了。



根据以往的经验来看,这种大容量 TB 级的 lob 表,使用以往常规导出的方式,大概率会报 Ora-01555。



稍稍测试一下,果不其然。

解决方法

一般的方法可以修改一下 undo_retention 参数以及 lob 字段的 retention 设置来解决,大致如下:


alter system set undo_retention=7200 scope=both;alter table table_name MODIFY LOB(col_name)(retention);
复制代码


然而当前的数据库是一个生产环境,参数修改这样的风险工程还是少做为妙,因此需要另辟蹊径。既然 ORA-01555 是由于长时间查询引起,我们可以尝试减少倒出的数据量。


最后决定用 Expdp 的 Query 试一试,但是 2TB 的数据量的单表 lob 还是第一次,那么根据哪个条件进行 Query 导出呢?


首先需考虑到是根据主键和索引列进行导出,这样的效率会比较高。确认后,问题又来了,索引列不满足均匀分批条件,故这个思路走不通了。


要怎样才能均分呢?看来只能用 Rowid 试试看。


首先 Rowid 是用于定位数据库中一条记录的一个相对唯一地址值。通常情况下,该值在该行数据插入到数据库表时即被确定且唯一。Rowid 是一个伪列,它并不实际存在于实体表中。


它是 Oracle 在读取表中数据行时,根据每一行数据的物理地址信息编码而成的一个伪列。所以根据一行数据的 Rowid 能找到一行数据的物理地址信息,从而快速地定位到数据行,而且使用 Rowid 来进行单记录定位速度是最快的。



上图是 Rowid 的结构图,主要包含 4 个部分:


  • 第一部分 6 位表示:该行数据所在的数据对象的 Data_object_id

  • 第二部分 3 位表示:该行数据所在的相对数据文件的 id

  • 第三部分 6 位表示:该数据行所在的数据块的编号

  • 第四部分 3 位表示:该行数据的行的编号


一个扩展 Rowid 采用 10 个 byte 来存储,共 80bit,其中 obj#32bit, rfile#10bit, block#22bit, row#16bit。所以相对文件号不能超过 1023,也就是一个表空间的数据文件不能超过 1023 个(不存在文件号为 0 的文件),一个 Datafile 只能有 2^22=4M 个 block,一个 block 中不能超过 2^16=64K 行数据的由来。


了解了 Rowid 后,怎么进行均匀分批呢?我们可以利用 Oracle 提供的 DBMS_ROWID 包。



导出脚本修改如下



参数说明


  • Content=DATA_ONLY:只导出表中的数据,导出会更快,导入时也更快,index 之类的对象在 data 导入后单独处理;

  • COMPRESSION=DATA_ONLY:数据量太大,节省空间,传输到新环境时效更高;

  • Query=“……”:将表数据根据条件进行分批导出全部数据。


为什么选用 rowid_block_number 呢?因为导出这个大表的需求下,Object_id 就一个,分不了批次,Fileid 只有 150 个,BLOCK_ID 是 126924 个,ROW_NUMBER 是 19,数据量数值进行 Mod 取余分批的差异就越小,所以使用 rowid_block_number。使用这个方法后还是很顺利地导出了数据。



将参数文件复制并修改取模的余数值,分为十个进程并发执行。查看全部导出日志,每个批次耗时相差不大,满足均匀分批导出的计划。


小结

遇到超大 lob 表导出需要,一般的思路是尽可能通过分区或者过滤查询减少单表数据导出的数据量,减少整体耗时,办法可以分为:


1、查看是否是分区表,分区表的话按分区导出


userid=' / as sysdba'directory=DMPdumpfile=export.dmplogfile=export.logCONTENT=DATA_ONLYCOMPRESSION=DATA_ONLYtables=(onwer.tbale_name:part_name)
复制代码


2、业务沟通,是否存在均匀分布的字段值,按照字段值分批导出,例如


USERID=' / as sysdba'directory= DMPCONTENT=DATA_ONLYCOMPRESSION=DATA_ONLYdumpfile=export.dmplogfile=export.logtables=owner.table_nameQUERY="WHERE column_name > 100000
复制代码


3、不满足以上的都可以使用本文 rowid 方式进行导出


Cat exp_owner_table_seq.parUSERID='/ as sysdba'directory= DMPCONTENT=DATA_ONLYCOMPRESSION=DATA_ONLYdumpfile=export.dmplogfile=export.logtables=owner.table_nameQUERY="wheremod(dbms_rowid.rowid_block_number(rowid),10)=1"
复制代码


作者介绍


梁铭图,新炬网络首席架构师,十多年数据库运维、数据库设计、数据治理以及系统规划建设经验,拥有 Oracle OCM、Togaf 企业架构师(鉴定级)、IBM CATE 等认证,曾获 dbaplus 年度 MVP 以及华为云 MVP 等荣誉,并参与数据资产管理国家标准的编写工作。在数据库运维管理和架构设计、运维体系规划、数据资产管理方面有深入研究。


王涛,新炬网络资深数据库专家,长期服务于运营商、金融、制造业及政企客户。扎根客户一线,多次主导运营商数据库大版本升级,擅长数据割接及同步技术的研究和应用,割接实战经验丰富。


原文链接


https://mp.weixin.qq.com/s?__biz=MzI4NTA1MDEwNg==&mid=2650792712&idx=2&sn=742813cf08dccc3eede90b5e477ca083&chksm=f3f9569dc48edf8bf9dd0af84d5d768755b44f98b7e188c2553187aa5f7bbcf507f2c7530b32&scene=27#wechat_redirect


2020-08-02 10:001741

评论

发布
暂无评论
发现更多内容

制造业工厂万界星空科技云MES系统中的设备管理模块

万界星空科技

生产管理系统 mes 设备资产管理系统 制造业数字化

这么有趣的ts类型,不看真的会后悔!

秃头小帅oi

面试官:如何实现微服务全链路灰度发布?

树上有只程序猿

微服务 灰度发布

学生开发者勇担青年使命,用AI守护少数人的“视界”

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 先锋开发者云上说 华为开发者大赛

8个比较流行的无/低代码后端数据平台

小狗围观科幻

Linux 安装jdk

javaNice

Linux jdk

使用Unity的游戏开发团队如何选择版本控制工具?20家头部3A游戏开发工作室中有19家选择Perforce Helix Core

龙智—DevSecOps解决方案

版本控制 Helix Core

从互联网到云计算再到 AI 原生,百度智能云数据库的演进

Baidu AICLOUD

redis 分布式数据库 云原生数据库

Kubernetes Gateway API 攻略:解锁集群流量服务新维度!

EquatorCoco

服务器集群 kubernetes 运维 API 文档

透明LED电子大屏幕在商显市场中的应用与创新

Dylan

节能 LED 图像清晰度处理

OpenHarmony知识共享与论坛共建:更深层次的社区共建与繁荣

新消费日报

DAPP代币燃烧质押挖矿系统开发

l8l259l3365

Atlassian午餐会直播回顾:如何拓展Jira工作流,加强团队协作?

龙智—DevSecOps解决方案

Jira

软件测试/人工智能丨​Python运算符解析,小白也能轻松get

测试人

人工智能 软件测试

一种全新的日志异常检测评估框架:LightAD

华为云开发者联盟

人工智能 机器学习 深度学习 华为云 华为云开发者联盟

Atlassian发布最新补贴政策,Jira/Confluence迁移上云最低可至零成本

龙智—DevSecOps解决方案

Jira Confluence Jira Service Management

NLP领域预训练模型的发展方向

百度开发者中心

人工智能 nlp 大模型

为什么云游戏被认为是行业的未来趋势?

Finovy Cloud

5G 游戏 vr 云计算, 云游戏

用二维码进行人员管理,人员信息一目了然

草料二维码

二维码 草料二维码

轻量级小程序前端架构的基本特性

Geek_2305a8

Downie 4 for Mac(好用的视频下载软件) 4.6.34直装版

展初云

Mac 视频下载 Downie

选择Amazon EC2,走进云端新时代

YoLo

服务器

InnoDB和MyISAM存储引擎对比

javaNice

MySQL

MySQL索引结构演变历史

javaNice

MySQL

大模型训练的GPU加速混合精度训练方案

百度开发者中心

gpu 大模型

怎么理解 React Server Component 和 Next.js 的关系

伤感汤姆布利柏

数仓实时算子难以观测,快来试试算子级监控吧

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

DAPP开发:探索NFT DAPP的世界创建和启动指南

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

阿里云 E-MapReduce 全面开启 Serverless 时代

阿里云大数据AI技术

众包平台,解锁自由职业者的灵活空间

知者如C

🔥🔥Java开发者的Python快速进修指南:函数进阶

EquatorCoco

Java Python 开发 函数式

Oracle 19c迁移遇到大容量lob表怎么办?_数据库_dbaplus社群_InfoQ精选文章