如何防止数据库雪崩(泛洪 flood)
背景
在数据库的使用过程中,一些微妙的操作,在特殊的场景中就可能导致雪崩效应。
1. 当数据库中存在未提交事务,并且未提交事务已经持有了某个表的哪怕是最小的锁时,如果此时对这个对象发起DDL操作,这个DDL操作将会堵塞接下来的其他对该对象的任意操作请求,包括读请求。
因为PG的锁等待判断是整个等待队列的冲突判断,这种判断的目的是防止某些锁请求一直被打断,从而这样设计的。
这种情况很容易引起雪崩。
2. 业务系统异常,导致数据库请求暴增,从而引起雪崩。
这种属于业务系统设计或BUG导致。
3. 主备切换后,热数据不在缓存中,导致请求变慢,如果在高峰期,应用会疯狂递交请求导致雪崩。
4. 执行计划出现异常,导致快SQL变成慢SQL,如果此类请求是高并发的,会直接引起雪崩。
如何规避雪崩
1. 语句超时
使用这种方法,可以有效的避免雪崩,通常雪崩是由业务高峰期的高并发小事务引起的,对这类QUERY加语句超时,可以很好的防止雪崩。
待缓存预热,或者执行计划恢复后,就能恢复正常。
例子
事务内语句级别
postgres=# begin;
BEGIN
postgres=# set local statement_timeout='2s';
SET
postgres=# select pg_sleep(1);
pg_sleep
----------
(1 row)
postgres=# set local statement_timeout='1ms';
SET
postgres=# select pg_sleep(1);
ERROR: canceling statement due to statement timeout
postgres=# end;
ROLLBACK
会话级别
postgres=# set session statement_timeout='1ms';
SET
postgres=# select pg_sleep(1);
ERROR: canceling statement due to statement timeout
2. 缓存预加载
PostgreSQL提供了缓存快照和缓存预加载的功能,用户在切换主备角色前,可以对缓存进行预热,防止冷数据过多带来的雪崩效应。
参考
https://www.postgresql.org/docs/9.5/static/pgbuffercache.html
https://www.postgresql.org/docs/9.5/static/pgprewarm.html
3. 绑定执行计划
参考
《AliCloudDB for PostgreSQL pg_hint_plan插件的用法》
https://yq.aliyun.com/articles/17212
《关键时刻HINT出彩 - PG优化器的参数优化、执行计划固化CASE》
https://yq.aliyun.com/articles/57945