如何防止数据库雪崩(泛洪 flood)

less than 1 minute read

背景

在数据库的使用过程中,一些微妙的操作,在特殊的场景中就可能导致雪崩效应。

1. 当数据库中存在未提交事务,并且未提交事务已经持有了某个表的哪怕是最小的锁时,如果此时对这个对象发起DDL操作,这个DDL操作将会堵塞接下来的其他对该对象的任意操作请求,包括读请求。

因为PG的锁等待判断是整个等待队列的冲突判断,这种判断的目的是防止某些锁请求一直被打断,从而这样设计的。

这种情况很容易引起雪崩。

2. 业务系统异常,导致数据库请求暴增,从而引起雪崩。

这种属于业务系统设计或BUG导致。

3. 主备切换后,热数据不在缓存中,导致请求变慢,如果在高峰期,应用会疯狂递交请求导致雪崩。

4. 执行计划出现异常,导致快SQL变成慢SQL,如果此类请求是高并发的,会直接引起雪崩。

如何规避雪崩

1. 语句超时

使用这种方法,可以有效的避免雪崩,通常雪崩是由业务高峰期的高并发小事务引起的,对这类QUERY加语句超时,可以很好的防止雪崩。

待缓存预热,或者执行计划恢复后,就能恢复正常。

例子
事务内语句级别

postgres=# begin;
BEGIN
postgres=# set local statement_timeout='2s';
SET
postgres=# select pg_sleep(1);
 pg_sleep 
----------
 
(1 row)
postgres=# set local statement_timeout='1ms';
SET
postgres=# select pg_sleep(1);
ERROR:  canceling statement due to statement timeout
postgres=# end;
ROLLBACK

会话级别

postgres=# set session statement_timeout='1ms';
SET
postgres=# select pg_sleep(1);
ERROR:  canceling statement due to statement timeout

2. 缓存预加载
PostgreSQL提供了缓存快照和缓存预加载的功能,用户在切换主备角色前,可以对缓存进行预热,防止冷数据过多带来的雪崩效应。

参考

https://www.postgresql.org/docs/9.5/static/pgbuffercache.html

https://www.postgresql.org/docs/9.5/static/pgprewarm.html

3. 绑定执行计划
参考

《AliCloudDB for PostgreSQL pg_hint_plan插件的用法》

https://yq.aliyun.com/articles/17212

《关键时刻HINT出彩 - PG优化器的参数优化、执行计划固化CASE》

https://yq.aliyun.com/articles/57945

Flag Counter

digoal’s 大量PostgreSQL文章入口