PostgreSQL 最佳实践 - 块级增量备份(ZFS篇)备份集有效性自动校验

2 minute read

背景

前面我写过一篇关于使用ZFS的快照特性和PostgreSQL流复制来完成数据库块级别的增量PITR备份的文章。

达到可控的备份与恢复SLA。

https://yq.aliyun.com/articles/59363

本文将基于这个备份机制, 写一个自动的恢复测试脚本。

(假设快照每天一个, 并且按规则命名)

备份集测试校验脚本

2个脚本如下

入口脚本

因为可能有多个恢复实例,这样统一管理比较方便。

# mkdir /root/test_recovery    
    
[root@db-pitr test_recovery]# cat recovery_entry.sh    
#!/bin/bash    
/root/test_recovery/recovery_test.sh pg000001 >>/root/test_recovery/pg000001.log 2>&1    
sleep 10    
/root/test_recovery/recovery_test.sh pg000002 >>/root/test_recovery/pg000002.log 2>&1    

恢复测试脚本

本脚本还可以再改进一下测试流程,在每个表空间创建测试表,写入数据,生成检查点。

[root@db-pitr test_recovery]# cat recovery_test.sh     
#!/bin/bash    
    
if [ $# -ne 1 ]; then    
  echo "for exp: ./sh pg000001"    
  exit 1    
fi    
    
UN="$1"    
date +%F%T    
echo $UN    
    
. /etc/profile    
. /home/${UN}/.bash_profile    
    
DATE=`date -d '-1 day' +%Y%m%d`    
zfs clone -o mountpoint=/test_recovery zp1/${UN}@$DATE zp1/test_recovery    
    
rm -f /test_recovery/pg_root/postgresql.conf    
rm -f /test_recovery/pg_root/recovery.conf    
rm -f /test_recovery/pg_root/postmaster.pid    
rm -f /test_recovery/pg_root/pg_xlog/*    
cp -p /root/test_recovery/${UN}_postgresql.conf /test_recovery/pg_root/postgresql.conf    
cp -p /root/test_recovery/${UN}_recovery.conf /test_recovery/pg_root/recovery.conf    
    
su - ${UN} -c "postgres -D /test_recovery/pg_root &"    
    
for ((i=1;i<180;i++)) do    
  echo $i    
  sleep 20    
  /pg_home/${UN}/pgsql/bin/psql -h 127.0.0.1 -p 11111 postgres postgres -c "select now(),* from pg_database;"    
  ret=$?    
  if [ $ret -eq 0 ]; then    
    break    
  fi    
done    
    
su - ${UN} -c "pg_ctl stop -w -t 6000 -m immediate -D /test_recovery/pg_root"    
sleep 60    
    
zfs destroy zp1/test_recovery    

并且为了防止恢复测试时, 一些参数冲突, 我们需要事先准备好恢复文件和配置文件, 如下 :

[root@db-pitr test_recovery]# pwd    
/root/test_recovery    
[root@db-pitr test_recovery]# ll    
total 164    
-rw-r--r-- 1 root     root      3267 Dec 10 10:54 pg000001.log    
-rw------- 1 pg000001 pg000001 20415 Dec 10 10:38 pg000001_postgresql.conf    
-rw-r--r-- 1 pg000001 pg000001  4793 Dec 10 10:39 pg000001_recovery.conf    
-rw-r--r-- 1 root     root      4520 Dec 10 10:58 pg000002.log    
-rw------- 1 pg000002 pg000002 19767 Dec 10 10:41 pg000002_postgresql.conf    
-rw-r--r-- 1 pg000002 pg000002  4795 Dec 10 10:41 pg000002_recovery.conf    
-r-x------ 1 root     root       478 Dec 10 10:50 recovery_entry.sh    
-r-x------ 1 root     root       985 Dec 10 10:32 recovery_test.sh    

与本机standby的配置相比, 主要修改几个地方, 防止冲突, max_connections是为了防止不可启动hot standby :

例如 :

pg000001_postgresql.conf    
port = 11111    
max_connections = 10000    
shared_buffers = 4096MB    
archive_mode = off    
hot_standby = on    
log_directory = 'pg_log'    
    
pg000001_recovery.conf    
restore_command = 'cp /pg_arch/pg000001/arch/*/%f %p'    
standby_mode = on    
#primary_conninfo    

测试

# crontab -e    
52 10 10 6 * /root/test_recovery/recovery_entry.sh    
52 10 10 12 * /root/test_recovery/recovery_entry.sh    

每年6月10日10点52, 12月10日10点52自动执行.

执行恢复脚本的日志输出举例 :

能进入数据库,说明恢复正常。

最好再扫描一下表空间读写是否正常。

# cat pg000001.log     
2014-12-1010:52:02    
pg000001    
rm: cannot remove `/test_recovery/pg_root/pg_xlog/archive_status': Is a directory    
1    
LOG:  00000: loaded library "pg_stat_statements"    
LOCATION:  load_libraries, miscinit.c:1296    
LOG:  00000: redirecting log output to logging collector process    
HINT:  Future log output will appear in directory "pg_log".    
LOCATION:  SysLogger_Start, syslogger.c:649    
             now              |    datname     | datdba | encoding | datcollate | datctype | datistemplate | datallowconn | datconnlimit | datlastsysoid | datfrozenxid | datminmxid | dattablespace |                                                                datacl                                                                    
------------------------------+----------------+--------+----------+------------+----------+---------------+--------------+--------------+---------------+--------------+------------+---------------+--------------------------------------------------------------------------------------------------------------------------------------    
 2014-12-10 10:54:11.77975+08 | template0      |     10 |        6 | C          | C        | t             | f            |           -1 |         12809 |         1674 |          1 |          1663 | {=c/postgres,postgres=CTc/postgres}    
 2014-12-10 10:54:11.77975+08 | postgres       |     10 |        6 | C          | C        | f             | t            |           -1 |         12809 |         1674 |          1 |          1663 |     
 2014-12-10 10:54:11.77975+08 | digoal |  16396 |        6 | C          | C        | f             | t            |           -1 |         12809 |         1674 |          1 |          1663 |     
(3 rows)    
    
waiting for server to shut down.... done    
server stopped    

数据块校验

如果开启了block checksum,可以通过pg_verify_checksums 离线校验BLOCK的checksum是否正确,确保没有数据块逻辑损坏。

建议校验步骤,恢复到一致点后,停校验库,使用pg_verify_checksums 校验。(因为PG的物理备份是在线的,可能COPY的BLOCK是partial block,恢复到一致点的目的是使用wal full page(fpw)消除不一致的BLOCK。否则可能校验不通过。)

参考

1. https://yq.aliyun.com/articles/59363

2. man pg_verify_checksums

Flag Counter

digoal’s 大量PostgreSQL文章入口