[转载]解决 nf_conntrack: table full, dropping packet 的几种思路

2 minute read

背景

原文

http://jaseywang.me/2012/08/16/%E8%A7%A3%E5%86%B3-nf_conntrack-table-full-dropping-packet-%E7%9A%84%E5%87%A0%E7%A7%8D%E6%80%9D%E8%B7%AF/

nf_conntrack 工作在 3 层，支持 IPv4 和 IPv6，而 ip_conntrack 只支持 IPv4。

目前，大多的 ip_conntrack_* 已被 nf_conntrack_* 取代，很多 ip_conntrack_* 仅仅是个 alias，原先的 ip_conntrack 的 /proc/sys/net/ipv4/netfilter/ 依然存在，但是新的 nf_conntrack 在 /proc/sys/net/netfilter/ 中，这个应该是做个向下的兼容：

$ pwd  
/proc/sys/net/ipv4/netfilter  
$ ls  
ip_conntrack_buckets          ip_conntrack_tcp_loose                ip_conntrack_tcp_timeout_syn_recv  
ip_conntrack_checksum         ip_conntrack_tcp_max_retrans          ip_conntrack_tcp_timeout_syn_sent  
ip_conntrack_count            ip_conntrack_tcp_timeout_close        ip_conntrack_tcp_timeout_syn_sent2  
ip_conntrack_generic_timeout  ip_conntrack_tcp_timeout_close_wait   ip_conntrack_tcp_timeout_time_wait  
ip_conntrack_icmp_timeout     ip_conntrack_tcp_timeout_established  ip_conntrack_udp_timeout  
ip_conntrack_log_invalid      ip_conntrack_tcp_timeout_fin_wait     ip_conntrack_udp_timeout_stream  
ip_conntrack_max              ip_conntrack_tcp_timeout_last_ack  
ip_conntrack_tcp_be_liberal   ip_conntrack_tcp_timeout_max_retrans  
  
$ pwd  
/proc/sys/net/netfilter  
$ ls  
nf_conntrack_acct                  nf_conntrack_tcp_timeout_close  
nf_conntrack_buckets               nf_conntrack_tcp_timeout_close_wait  
nf_conntrack_checksum              nf_conntrack_tcp_timeout_established  
nf_conntrack_count                 nf_conntrack_tcp_timeout_fin_wait  
nf_conntrack_events                nf_conntrack_tcp_timeout_last_ack  
nf_conntrack_events_retry_timeout  nf_conntrack_tcp_timeout_max_retrans  
nf_conntrack_expect_max            nf_conntrack_tcp_timeout_syn_recv  
nf_conntrack_generic_timeout       nf_conntrack_tcp_timeout_syn_sent  
nf_conntrack_icmp_timeout          nf_conntrack_tcp_timeout_time_wait  
nf_conntrack_log_invalid           nf_conntrack_tcp_timeout_unacknowledged  
nf_conntrack_max                   nf_conntrack_udp_timeout  
nf_conntrack_tcp_be_liberal        nf_conntrack_udp_timeout_stream  
nf_conntrack_tcp_loose             nf_log/  
conntrack_tcp_max_retrans  

查看当前的连接数：

# grep -E "ip_conntrack|nf_conntrack" /proc/slabinfo  
ip_conntrack       38358  64324    304   13    1 : tunables   54   27    8 : slabdata   4948   4948    216  

查出目前 ip_conntrack 的排名：

$ cat /proc/net/ip_conntrack | cut -d ' ' -f 10 | cut -d '=' -f 2 | sort | uniq -c | sort -nr | head -n 10  

nf_conntrack/ip_conntrack 跟 nat 有关，用来跟踪连接条目，它会使用一个哈希表来记录 established 的记录。nf_conntrack 在 2.6.15 被引入，而 ip_conntrack 在 2.6.22 被移除，如果该哈希表满了，就会出现：

nf_conntrack: table full, dropping packet

解决此问题有如下几种思路。

1. 不使用 nf_conntrack 模块

首先要移除 state 模块，因为使用该模块需要加载 nf_conntrack。确保 iptables 规则中没有出现类似 state 模块的规则，如果有的话将其移除：

-A INPUT -m state –state RELATED,ESTABLISHED -j ACCEPT

注释 /etc/sysconfig/iptables-config 中的：

IPTABLES_MODULES="ip_conntrack_netbios_ns"

移除 nf_conntrack 模块：

$ sudo modprobe -r xt_NOTRACK nf_conntrack_netbios_ns nf_conntrack_ipv4 xt_state  
$ sudo modprobe -r nf_conntrack  

现在 /proc/net/ 下面应该没有 nf_conntrack 了。

2. 调整 /proc/ 下面的参数

可以增大 conntrack 的条目(sessions, connection tracking entries) CONNTRACK_MAX 或者增加存储 conntrack 条目哈希表的大小 HASHSIZE

默认情况下，CONNTRACK_MAX 和 HASHSIZE 会根据系统内存大小计算出一个比较合理的值：

对于 CONNTRACK_MAX，其计算公式：

CONNTRACK_MAX = RAMSIZE (in bytes) / 16384 / (ARCH / 32)

比如一个 64 位 48G 的机器可以同时处理 48*1024^3/16384/2 = 1572864 条 netfilter 连接。对于大于 1G 内存的系统，默认的 CONNTRACK_MAX 是 65535。

对于 HASHSIZE，默认的有这样的转换关系：

CONNTRACK_MAX = HASHSIZE * 8

这表示每个链接列表里面平均有 8 个 conntrack 条目。其真正的计算公式如下：

HASHSIZE = CONNTRACK_MAX / 8 = RAMSIZE (in bytes) / 131072 / (ARCH / 32)

比如一个 64 位 48G 的机器可以存储 48*1024^3/131072/2 = 196608 的buckets(连接列表)。对于大于 1G 内存的系统，默认的 HASHSIZE 是 8192。

可以通过 echo 直接修改目前系统 CONNTRACK_MAX 以及 HASHSIZE 的值：

$ sudo su -c "echo 100000 > /proc/sys/net/netfilter/nf_conntrack_max"  
$ sudo su -c "echo 50000 > /proc/sys/net/netfilter/nf_conntrack_buckets"  

还可以缩短 timeout 的值：

$ sudo su -c "echo 600 > /proc/sys/net/ipv4/netfilter/ip_conntrack_tcp_timeout_established"  

3. 使用 raw 表，不跟踪连接

iptables 中的 raw 表跟包的跟踪有关，基本就是用来干一件事，通过 NOTRACK 给不需要被连接跟踪的包打标记，也就是说，如果一个连接遇到了 -j NOTRACK，conntrack 就不会跟踪该连接，raw 的优先级大于 mangle, nat, filter，包含 PREROUTING 和 OUTPUT 链。

当执行 -t raw 时，系统会自动加载 iptable_raw 模块(需要该模块存在)。raw 在 2.4 以及 2.6 早期的内核中不存在，除非打了 patch，目前的系统应该都有支持:

$ sudo iptables -A FORWARD -m state --state UNTRACKED -j ACCEPT  
$ sudo iptables -t raw -A PREROUTING -p tcp -m multiport --dport 80,81,82 -j NOTRACK  
$ sudo iptables -t raw -A PREROUTING -p tcp -m multiport --sport 80,81,82 -j NOTRACK  

上面三种方式，最有效的是 1 跟 3，第二种治标不治本。

参考

http://www.digipedia.pl/usenet/thread/16263/7806/

http://serverfault.com/questions/72366/how-do-i-disable-the-nf-conntrack-kernel-module-in-centos-5-3-without-recompilin

http://wiki.khnet.info/index.php/Conntrack_tuning

higkoohk

这个问题我也遇到了，而且很头疼。现在的解决办法是：

关闭Linux防火墙，放到专门的硬件设备上。

楼主提到的3种方法我也都经历过了，都不完美。

1、调整参数大小，会加大系统消耗。而且在不需要进行状态跟踪时，完全不需要记录状态信息

2、删除对应模块，如果配置文件完全由你掌控还可以，否则容易出问题

3、用祼表去跟踪是比较好的做法，但如果服务器对外端口较多或有变化时，很容易失控。如果对所有的tcp都不跟踪，将会导致本机主动访问外部网络有异常。

所以，我的最终方案：

1、关闭防火墙

2、向netfilter团队反馈

https://bugzilla.netfilter.org/show_bug.cgi?id=830

http://jaseywang.me/

Jasey Wang

exactly，我们现在都是直接禁用 netfilter 模块。

higkoohk

怎样安全的禁用netfilter模块？这玩意太底层，会不会有问题？

http://jaseywang.me/2012/11/18/通过-modprobe-彻底禁用-netfilter/

久经考验的。

wych

第一种在centos 5里不太好，centos 5 里的iptable_nat 和ip_conntrack在一起，禁用了ip_conntrack后nat也用不了了。

digoal’s 大量PostgreSQL文章入口

Twitter Facebook Google+ LinkedIn

Digoal.zhou

[转载]解决 nf_conntrack: table full, dropping packet 的几种思路

背景

原文

参考

回复

higkoohk

Jasey Wang

higkoohk

wych

digoal’s 大量PostgreSQL文章入口

You May Also Enjoy

PostgreSQL(PPAS 兼容Oracle) 从零开始入门手册 - 珍藏版

PostgreSQL pipelinedb 流计算插件 - IoT应用 - 实时轨迹聚合

PostgreSQL plpgsql 存储过程、函数 - 状态、异常变量打印、异常捕获… - GET [STACKED] DIAGNOSTICS

PostgreSQL datediff 日期间隔（单位转换）兼容SQL用法