EXPDP、IMPDP规范及常用技巧总结

一、巧用并行提升速度

在EXPDP/IMPDP过程中，为了提升速度，而使用并行，有人说不就是加个parallel=n参数嘛，但该如何利用该参数做到真正提升速度呢？

1、单表导出导入数据时使用parallel=n参数无效

2、导入（IMPDP）索引过程中是串行的方式，虽然在执行计划中看到建索引时是带并行参数，但建议使用sqlfile参数生成语句的方式建索引，避免因创建了结构后，再导入数据，这样就会变得异常慢。大概步骤如下：

cat >expdp_testdump_20181218.par  <<EOF
userid='/ as sysdba'
directory=datadump
dumpfile=expdp_testdump_20181218_%U.dmp
logfile=expdp_testdump_20181218.log
cluster=no
parallel=2
exclude= index,constraint
EOF
--排除索引和约束，执行导入
nohup impdp parfile=expdp_testdump_20181218.par > expdp_testdump_20181218.par.out &
--通过sqlfile参数生成创建索引语句
cat >impdp_testdump_idx_20181218.par <<EOF
userid='/ as sysdba'
directory=datadump
dumpfile=expdp_testdump_20181218_%U.dmp
sqlfile=impdp_testdump_idx_20181218.sql
logfile=impdp_testdump_idx_20181218.log
cluster=no
parallel=2
tables=scott.testdump
include=index,constraint
EOF
--执行生成创建索引语句（实际并不会导入）
nohup impdp parfile= impdp_testdump_idx_20181218.par > impdp_testdump_idx_20181218.par.out &
--修改创建索引的并行度，并行度建议不超过CPU核数的1.5倍
--LINUX环境使用
sed -i 's/PARALLEL 1/PARALLEL 16/g' impdp_testdump_idx_20181218.sql
--因AIX环境sed没有-i参数，可以使用如下两种方法：
perl -pi -e 's/ PARALLEL 1/PARALLEL 16/g' impdp_testdump_idx_20181218.sql
或者
vi impdp_testdump_idx_20181218.sql << EOF
:%s/ PARALLEL 1/PARALLEL 16/g
:wq
EOF
--等导入完数据之后，执行建索引的SQL：
cat create_testdump_index.sh
. ~/.profile
sqlplus / as sysdba <<EOF
set timing on
set echo on
set verify on
spool create_testdump_index.log
@impdp_testdump_idx_20181218.sql
spool off
exit
EOF
--执行建索引的SQL
nohup sh create_testdump_index.sh> create_testdump_index.sh.out &

以上可能看起来简单的事变的复杂，步骤多了，本来一个参数能解决的事（实际也不能解决），这个步骤已经经过多次实践，解决索引不能并行建的问题。

3、在线调整并行度

当导出导入动作已经发起后，发现并行还可以加大，或者需要减少，该怎么办？

expdp \'\/ as sysdba\' attach=SYS_EXPORT_SCHEMA_01

再执行paralele n就可以调整。

二、含LOB大表导出技巧

在导出含LOB字段的大表时，表未分区，并且表大小已过TB，在导出过程中经常遇到因undo表空间大小和undo_retention设置保留时间，导致ORA-01555: snapshot too old的报错。那该怎么避免呢？

通过rowid或者主键的方式分批导出（推荐使用rowid）

--创建一个表用于记录要导出表的rowid，并分批，这里分成50
create table scott.exp_rowid as select mod(rownum,50) sou_seq,rowid sou_rowid from scott.lobtest;
--根据分批次数生成对应的parfile文件
cat >expdp_lobtest_20181219_seq0.par <<EOF
userid='/ as sysdba'
directory=datadump
dumpfile=expdp_lobtest_20181219_%U.dmp
logfile=expdp_lobtest_20181219.log
cluster=no
tables=scott.lobtest
query="where rowid in (select sou_rowid from scott.exp_rowid where sou_seq=0)"
EOF
--执行导出
nohup expdp expdp_lobtest_20181219_seq0.par > expdp_lobtest_20181219_seq0.par.out &
…..
nohup expdp expdp_lobtest_20181219_seq50.par > expdp_lobtest_20181219_seq50.par.out &
 
分成50个批次导出,可通过循环生成导出脚本,这里先不提供循环脚本,后面提供参考

或者通过如下脚本：

chunk=10
for ((i=0;i<=9;i++));
do
expdp /as sysdba TABLES=LOBTEST QUERY=LOBTEST:\"where mod\(dbms_rowid.rowid_block_number\(rowid\)\, ${chunk}\) = ${i}\" directory=DMP dumpfile=lobtest_${i}.dmp logfile= lobtest_${i}.log &
echo $i
done

三、多表串行自动化导出导入

有这样一种场景，做OGG初始化时，需要导出导入某个业务不同schema下不同的表，如果表数量比较多的情况下，降低导出导入时对库的压力，可通过以下方式，进行导出导入。

--提供多表自动循环导入脚本，
cat auto_impdp.sh
while read tab_name
do
   impdp_num=`ps -ef|grep impdp|grep -v grep|grep -v "tail "|wc -l`
   while [ $impdp_num -ge 1 ]
   do
     sleep 1m
     impdp_num=`ps -ef|grep impdp|grep -v grep|grep -v "tail "|wc -l`
   done
   par_file='echo "impdp_"$table_name"_181219.par"'
   log_file='echo "impdp_"$table_name"_181219.log"'
   echo 'userid="/ as sysdba"' >$par_file
   echo "dumpfile=expdp_scott_181219_%U.dmp" >>$par_file
   echo "logfile="$log_file >> $par_file
   echo "exclude=statistics,object_grant,index" >> $par_file
   echo "transform=segment_attributes:n" >> $par_file
   echo "tables=("$tab_name")" >> $par_file
   nohup impdp parfile="$par_file " > " $par_file".out 2>&1 &
done <table_list.txt

这里可能应用场景并不多，但对于自动化生成脚本可以提供一个很好的参考。

四、进度查询和监控

但领导问你导数进度时，会不会手忙脚乱的，无从查起？当然，作为一个负责任的DBA，实时的知道导出导入的进度，是必须掌握的技能。

1、查看数据泵作业的运行情况

select owner_name owr,job_name jbn,operation ope,job_mode jbm,state,degree, attached_sessions atts,datapump_sessions dats from dba_datapump_jobs;

select sid, serial#,session_type from v$session s, dba_datapump_sessions d where s.saddr = d.saddr;

2、监控数据泵的逻辑备份程度

SELECT sid, serial#, context, sofar, totalwork, ROUND(sofar/totalwork*100,2) "%_COMPLETE"
 FROM v$session_longops WHERE totalwork != 0 AND sofar <> totalwork;
 
SID SERIAL# CONTEXT SOFAR   TOTALWORK   %_COMPLETE
103  89     0       54          7        83.33

3、查看数据泵的详细进度

expdp \'\/ as sysdba\' attach= SYS_IMPORT_TABLE_01
 
Import> status
 
Job: SYS_IMPORT_TABLE_01
  Operation: IMPORT
  Mode: TABLE
  State: EXECUTING
  Bytes Processed: 1,364,791,288
  Percent Done: 99
  Current Parallelism: 2
  Job Error Count: 0
  Dump File: /opt/datadump/expdp_testdump_20181218_01.dmp

五、性能诊断技巧

在导出导入过程中，偶尔会遇到一些性能问题，可以会因主机资源，数据库版本，PSU版本，datapump本身bug等原因导致。

首先可根据需求判断是在哪个环节出问题，导出/导入元数据还是数据时出现性能问题；是否是导出/导入特定对象遇到性能问题？对于这些问题，MOS上提供了如下3种诊断方法：

方法一：
在expdp/imdp命令中添加参数METRICS=Y TRACE=480300 (或者 480301 捕获SQL trace) 并重新运行expdp/impdp
方法二：
对DataPump Master (DM) 和 Worker (DW)进程启用level 12的10046 trace (数据库版本 >= 11g)
SQL> connect / as sysdba -- 版本>= 11g and < 12c SQL> alter system set events 'sql_trace {process : pname = dw | pname = dm} level=12'; -- 版本= 12c SQL> alter system set events 'sql_trace {process: pname = dw | process: pname = dm} level=12';
然后用参数METRICS = Y加入命令行启动expdp/impdp
方法三：（推荐）
跟踪已经开始运行的DataPump 导出进程
SQL> connect / as sysdba  set lines 150 pages 100 numwidth 7  col program for a38  col username for a10  col spid for a7  select to_char (sysdate, 'YYYY-MM-DD HH24:MI:SS') "DATE", s.program, s.sid, s.status, s.username, d.job_name, p.spid, s.serial#, p.pid         from   v$session s, v$process p, dba_datapump_sessions d        where  p.addr = s.paddr and s.saddr = d.saddr and             (UPPER (s.program) LIKE '%DM0%' or UPPER (s.program) LIKE '%DW0%');
确认Data Pump Worker SID 和 SERIAL# （例如. 对于 DM 和DW 进程）。  以level 12跟踪 Master/Worker 进程 (bind和wait信息)：
SQL> exec sys.dbms_system.set_ev (SID, SERIAL#, 10046, 12, '');
等待一段时间 (至少1 小时) 以捕获足够的信息。
 结束跟踪：  
SQL> exec sys.dbms_system.set_ev (SID, SERIAL#, 10046, 0, '');

以上为MOS提供的诊断方法，可灵活的使用，查询出DataPump进程的SID后可以查询是否有会话阻塞，异常等待事件是什么？比如由于“StreamsAQ: enqueue blocked on low memory”等待事件导致expdp / impdp命令出现严重性能问题，是因为Bug 27634991引起的（在版本19.1及更高版本中修复了）。

六、其它参数技巧

1、巧用括号将参数包含

导入目标库要求换用户名和表名，比如：

remap_schema=scott:test

remap_table= t1:t2 --无括号需多个参数

可直接写成

remap_table=(scott.t1: test.t2) --正确姿势

如果没有括号会怎样呢？

remap_table= scott.t1: test.t2

. . imported "SCOTT"."TEST.T2" 0 KB 0 rows –可看到导入的还是SCOTT用户的表

2、存储参数的消除

当导入到目标端时，如果表空间不同，需要用remap_tablespace转换表空间，且源端导出的元数据是创建表结构的语句是包含预分配段的，此时会占用很多的表空间，可用以下参数消除存储参数。

transform=segment_attributes:n

使用该参数会将对象段分配在导入目标用户的默认表空间上。

3、预估导数时间

有时想预估导出导入某个对象的时间和消耗，而不想真正导入，可以使用estimate

4、关于压缩compression

在空间不足的情况下，使用compression=all进行压缩导入，压缩比大概是1:6左右，根据导出数据类型的不同会有偏差，使用压缩，导出/导入时，耗时较长。

5、include/exclude包含选择性条件时需注意的点

exclude/include参数用法：

exclude=[object_type]:[name_clause],[object_type]:[name_clause] -->排出特定对象

include=[object_type]:[name_clause],[object_type]:[name_clause] -->包含特定对象

l exclude、include参数不能同时使用，这2个参数相斥

l 使用parfile，可以用多个exclude参数，但只能用一个include参数

l include、exclude参数中，在escape语句中，不能用\作为转义符

6、query参数的使用技巧

直接在命令行输入参数，在linux环境下，所有特殊字符都否要使用\转义

QUERY=SCOTT.TEST1:\"WHERE create_date \>= TO_DATE\(\'20181219 10:00:00\',\'yyyymmdd hh24:mi:ss\'\)\"

通过用parfile方式，可以不用加转义符（推荐）

QUERY=SCOTT.TEST1:"WHERE create_date >= TO_DATE('2018-12-19 10:00:00','yyyy-mm-dd hh24:mi:ss')"

7、expdp/impdp其它需要注意问题

对应表空间的建立，表空间大小分配，归档目录大小（导入会产生很多归档），导入索引时temp表空间的大小，源和目标库的版本，字符集是否一致，share pool大小等。

七、源和目标导数比对

查询是否存在报错:grep –i ora- expdp_testdump_20181219.log

grep ^". . exported " exp_testdump_20181219.log|awk '{print $4,$7}'|sed 's/"//g'|sort –n>1.txt

grep ^". . exported " imp_testdump_20181219.log|awk '{print $4,$7}'|sed 's/"//g'|sort –n>2.txt

comm 1.txt 2.txt --比对导出导入记录数是否一致

源和目标对比导出导入对象数是否一致

select owner,object_type,count(*) from dba_objects where owner='SCOTT' group by owner,object_type order by 1,2,3;

八、12c的一些新功能

1、像表一样导出视图

views_as_tables参数允许把视图当成表导出

2、 transform参数的扩展加强

为减少导入期间减少相关日志的产生，可使用transform=disable_archive_logging:y，（包含表和索引级别）导入后再将日志属性重置为LOGGING。

导入时改变表的LOB存储：TRANFORM参数的LOB_STORAGE子句使得在进行非可传输导入操作时改变表的压缩特性。TRANSFORM=LOB_STORAGE:[SECUREFILE | BASICFILE| DEFAULT | NO_CHANGE]

导入时改变表压缩：TRANSFORM参数的TABLE_COMPRESSION_CLAUSE子句允许表导入过程中动态改变表的压缩特性TRANSFORM=TABLE_COMPRESSION_CLAUSE:[NONE |compression_clause]

3、导出压缩可指定压缩级别

COMPRESSION_ALGORITHM=[BASIC | LOW | MEDIUM |HIGH]

4、在安全方面，增加了expdp/impdp的审计功能，已经使用加密导出时，加密口令的增强。

5、数据泵用于PDB和用于非CDB数据库没太大差别，要导出/导入某个PDB时，指定对应的就行userid='/ as sysdba@pdb'

总结：

使用数据泵进行导出导入需要考虑的地方很多，这里是对以往经验的一些总结，文中没有介绍数据泵在传输表空间中相关的内容和技巧，后续补充。

EXPDP、IMPDP规范及常用技巧总结

猜你喜欢