从redo日志分析数据库的profile

1 minute read

背景

在PostgreSQL中查看TOP SQL是比较方便的，如下：

《PostgreSQL 如何查找TOP SQL (例如IO消耗最高的SQL)》

而从另一个角度，比如REDO文件，我们也能分析出每个时间段数据库的操作类型，分析数据库资源消耗，以及提出优化建议。

redo日志长什么样

pg_xlogdump

要查看redo日志，不得不提pg_xlogdump，原理和介绍详见如下

《PostgreSQL xlog dump - pg_xlogdump 源码讲解》

我们简单的看看某个REDO文件的内容：

pg_xlogdump 000000050000159E00000095 000000050000159E00000099|less  
  
rmgr: Btree       len (rec/tot):     42/    74, tx:  891772656, lsn: 159E/95000CA0, prev 159E/94FFEC78, bkp: 0000, desc: insert: rel 1663/56867/10216768; tid 19180/150  
rmgr: Btree       len (rec/tot):     34/    66, tx:  891772656, lsn: 159E/95000CF0, prev 159E/95000CA0, bkp: 0000, desc: insert: rel 1663/56867/10906168; tid 150019/337  
rmgr: Transaction len (rec/tot):     12/    44, tx:  891772656, lsn: 159E/95000D38, prev 159E/95000CF0, bkp: 0000, desc: commit: 2017-05-04 13:15:50.262106 CST  
rmgr: Heap2       len (rec/tot):     26/    58, tx:          0, lsn: 159E/95000D68, prev 159E/95000D38, bkp: 0000, desc: clean: rel 1663/56867/10216762; blk 402406 remxid 891772032  
rmgr: Heap        len (rec/tot):     25/  8065, tx:  891772657, lsn: 159E/95000DA8, prev 159E/95000D68, bkp: 1000, desc: lock 891772657: rel 1663/56867/10216770; tid 39310/2 LOCK_ONLY EXCL_LOCK   
rmgr: Heap        len (rec/tot):     36/  8116, tx:  891772657, lsn: 159E/95002D48, prev 159E/95000DA8, bkp: 0100, desc: update: rel 1663/56867/10216770; tid 39310/2 xmax 891772657 ; new tid 122748/1 xmax 0  
rmgr: Btree       len (rec/tot):     18/  5238, tx:  891772657, lsn: 159E/95004D18, prev 159E/95002D48, bkp: 1000, desc: insert: rel 1663/56867/10216776; tid 15681/11  
rmgr: Transaction len (rec/tot):     12/    44, tx:  891772657, lsn: 159E/950061A8, prev 159E/95004D18, bkp: 0000, desc: commit: 2017-05-04 13:15:50.320538 CST  

rmgr是指这笔REDO RECORD的类别，后面是长度等信息。

通过以下命令，可以统计每个资源有多少笔redo记录，描述是什么？

pg_xlogdump 000000050000159E00000095 000000050000159E00000099|grep -v " lock "| awk '{print $2" "$16" "$17}'|sort |uniq -c|sort -n -r  
  
 178464 Gin Insert item,  
Gin Vacuum page,  
Heap2 clean: rel  
Gin Vacuum data  
Btree insert: rel  
Heap insert: rel  
Heap2 visible: rel  
Heap delete: rel  
Transaction commit: 2017-05-04  
XLOG full-page image:  
Gin Insert new  
Heap update: rel  
Transaction abort: 2017-05-04  
Gin Update metapage,  
Btree vacuum: rel  
Heap hot_update: rel  
Gin Delete list  
Btree insert_upper: rel  
Btree split_r: rel  
Btree unlink_page: rel  
Btree mark_page_halfdead: rel  
Btree reuse_page: rel  
Heap2 freeze_page: rel  
Standby running xacts:  
Heap insert(init): rel  
Heap inplace: rel  
Btree delete: index  
Heap2 cleanup info:  
Standby AccessExclusive locks:  
Btree split_l: rel  
Gin Page split,  
XLOG checkpoint: redo  
Gin Create posting  
Heap update(init): rel  

这个日志可以看出什么问题呢？

比如我们可以看到Gin的REDO非常多，说明用户使用了GIN索引，同时这个索引的写入，更新非常频繁。

对于这种情况，用户可以设置GIN索引的fastupdate特性，同时调大vacuum naptime，以及调大表的vacuum阈值，尽量的减少GIN的合并频率，（但是fastupdate会降低检索性能）。

其他，

如果你看到VACUUM非常多，说明这些REDO中包含大量的垃圾回收信息，用户可能产生了较多垃圾，正在被回收。

如果是VACUUM FREEZE较多，说明冻结较多，用户可以修改一下冻结周期，减少这种REDO。