内容纲要

TCP 连接的状态

首先介绍一下 TCP 连接建立与关闭过程中的状态。TCP 连接过程是状态的转换,促使状态发生转换的因素包括用户调用、特定数据包以及超时等,具体状态如下所示:

CLOSED:初始状态,表示没有任何连接。

LISTEN:Server 端的某个 Socket 正在监听来自远方的 TCP 端口的连接请求。

SYN_SENT:发送连接请求后等待确认信息。当客户端 Socket 进行 Connect 连接时,会首先发送 SYN 包,随即进入 SYN_SENT 状态,然后等待 Server 端发送三次握手中的第 2 个包。

SYN_RECEIVED:收到一个连接请求后回送确认信息和对等的连接请求,然后等待确认信息。通常是建立 TCP 连接的三次握手过程中的一个中间状态,表示 Server 端的 Socket 接收到来自 Client 的 SYN 包,并作出回应。

ESTABLISHED:表示连接已经建立,可以进行数据传输。

FIN_WAIT_1:主动关闭连接的一方等待对方返回 ACK 包。若 Socket 在 ESTABLISHED 状态下主动关闭连接并向对方发送 FIN 包 (表示己方不再有数据需要发送),则进入 FIN_WAIT_1 状态,等待对方返回 ACK 包,此后还能读取数据,但不能发送数据。在正常情况下,无论对方处于何种状态,都应该马上返回 ACK 包,所以 FIN_WAIT_1 状态一般很难见到。

FIN_WAIT_2:主动关闭连接的一方收到对方返回的 ACK 包后,等待对方发送 FIN 包。处于 FIN_WAIT_1 状态下的 Socket 收到了对方返回的 ACK 包后,便进入 FIN_WAIT_2 状态。由于 FIN_WAIT_2 状态下的 Socket 需要等待对方发送的 FIN 包,所有常常可以看到。若在 FIN_WAIT_1 状态下收到对方发送的同时带有 FIN 和 ACK 的包时,则直接进入 TIME_WAIT 状态,无须经过 FIN_WAIT_2 状态。

TIME_WAIT:主动关闭连接的一方收到对方发送的 FIN 包后返回 ACK 包 (表示对方也不再有数据需要发送,此后不能再读取或发送数据),然后等待足够长的时间(2MSL) 以确保对方接收到 ACK 包(考虑到丢失 ACK 包的可能和迷路重复数据包的影响),最后回到 CLOSED 状态,释放网络资源。

CLOSE_WAIT:表示被动关闭连接的一方在等待关闭连接。当收到对方发送的 FIN 包后 (表示对方不再有数据需要发送),相应的返回 ACK 包,然后进入 CLOSE_WAIT 状态。在该状态下,若己方还有数据未发送,则可以继续向对方进行发送,但不能再读取数据,直到数据发送完毕。

LAST_ACK:被动关闭连接的一方在 CLOSE_WAIT 状态下完成数据的发送后便可向对方发送 FIN 包 (表示己方不再有数据需要发送),然后等待对方返回 ACK 包。收到 ACK 包后便回到 CLOSED 状态,释放网络资源。

CLOSING:比较罕见的例外状态。正常情况下,发送 FIN 包后应该先收到 (或同时收到) 对方的 ACK 包,再收到对方的 FIN 包,而 CLOSING 状态表示发送 FIN 包后并没有收到对方的 ACK 包,却已收到了对方的 FIN 包。有两种情况可能导致这种状态:其一,如果双方几乎在同时关闭连接,那么就可能出现双方同时发送 FIN 包的情况;其二,如果 ACK 包丢失而对方的 FIN 包很快发出,也会出现 FIN 先于 ACK 到达。

TCP 连接的状态转换如下图所示

TCP 连接的关闭方式

建立 TCP 连接需要三次握手,而关闭连接则需要四次握手,并且分为主动关闭和被动关闭。这是由于 TCP 连接是全双工的,我关了你的连接,并不等于你关了我的连接,因此双方都必须单独进行关闭。当一方完成它的数据发送任务后可以发送 FIN 包来终止这个方向的连接,表明自己不再有数据需要发送;收到 FIN 包的那一方虽然不能再读取数据,但仍能发送数据。以 Client 主动关闭连接为例:

Client 向 Server 发送 FIN 包,表示 Client 主动关闭连接,然后进入 FIN_WAIT_1 状态,等待 Server 返回 ACK 包。此后 Client 不能再向 Server 发送数据,但能读取数据。

Server 收到 FIN 包后向 Client 发送 ACK 包,然后进入 CLOSE_WAIT 状态,此后 Server 不能再读取数据,但可以继续向 Client 发送数据。Client 收到 Server 返回的 ACK 包后进入 FIN_WAIT_2 状态,等待 Server 发送 FIN 包。

Server 完成数据的发送后,将 FIN 包发送给 Client,然后进入 LAST_ACK 状态,等待 Client 返回 ACK 包,此后 Server 既不能读取数据,也不能发送数据。

Client 收到 FIN 包后向 Server 发送 ACK 包,然后进入 TIME_WAIT 状态,接着等待足够长的时间 (2MSL) 以确保 Server 接收到 ACK 包,最后回到 CLOSED 状态,释放网络资源。Server 收到 Client 返回的 ACK 包后便回到 CLOSED 状态,释放网络资源。

TCP 连接的建立到关闭,需要经历以下状态迁移 (假定 Client 发起连接,并主动关闭连接):

Client
CLOSED -> SYN_SENT -> ESTABLISHED -> FIN_WAIT_1 -> FIN_WAIT_2 -> TIME_WAIT -> CLOSED

Server
CLOSED -> LISTEN -> SYN_RECEIVED -> ESTABLISHED -> CLOSE_WAIT -> LAST_ACK -> CLOSED

对 Server 与 Client 的影响

在详细了解 TCP 连接的状态和关闭方式后,我们会发现 TIME_WAIT 状态是一个奇葩的存在!主动关闭连接的一方在发送最后一个 ACK 包后,无论对方是否收到都会进入 TIME_WAIT 状态,等待 2MSL 的时间,然后才能释放网络资源。MSL 就是 Maximum Segment Lifetime(数据包的最大生命周期),是一个数据包能在互联网上生存的最长时间,若超过这个时间则该数据包将会消失在网络中。操作系统通常会将 2MSL 设为 4 分钟,最低不少于 30 秒,因而 TIME_WAIT 状态一般维持在 30 秒至 4 分钟。这个是 TCP/IP 协议必不可少的,是 TCP/IP 设计者设计的,也就是无法解决的。TIME_WAIT 状态的存在主要有两个原因:

可靠地实现 TCP 全双工连接的终止。在关 TCP 闭连接时,最后的 ACK 包是由主动关闭方发出的,如果这个 ACK 包丢失,则被动关闭方将重发 FIN 包,因此主动方必须维护状态信息,以允许它重发这个 ACK 包。如果不维持这个状态信息,那么主动方将回到 CLOSED 状态,并对被动方重发的 FIN 包响应 RST 包,而被动关闭方将此包解释成一个错误 (在 Java 中会抛出 connection reset 的 SocketException)。因而,要实现 TCP 全双工连接的正常终止,必须能够处理四次握手协议中任意一个包丢失的情况,主动关闭方必须维持状态信息进入 TIME_WAIT 状态。
确保迷路重复数据包在网络中消失,防止上一次连接中的包迷路后重新出现,影响新连接。TCP 数据包可能由于路由器异常而迷路,在迷路期间,数据包发送方可能因超时而重发这个包,迷路的数据包在路由器恢复后也会被送到目的地,这个迷路的数据包就称为 Lost Duplicate。在关闭一个 TCP 连接后,如果马上使用相同的 IP 地址和端口建立新的 TCP 连接,那么有可能出现前一个连接的迷路重复数据包在前一个连接关闭后再次出现,影响新建立的连接。为了避免这一情况,TCP 协议不允许使用处于 TIME_WAIT 状态的连接的 IP 和端口启动一个新连接,只有经过 2MSL 的时间,确保上一次连接中所有的迷路重复数据包都已消失在网络中,才能安全地建立新连接。

对于 Client 而言,每个连接都需要占用一个端口,而系统允许的可用端口数不足 65000 个 (这也是在 TCP 参数优化后才能达到)。因此如果 Client 发起过多的连接并主动关闭 (假设没有重用端口或者连接多个 Server),就会有大量的连接在关闭后处于 TIME_WAIT 状态,等待 2MSL 的时间后才能释放网络资源 (包括端口),于是 Client 会由于缺少可用端口而无法新建连接。

对 Server 而言 (特别是处理高并发短连接的 Server),Server 端与 Client 建立的连接是使用同一个端口的,即监听的端口,每个连接通过一个五元组区分,包括源 IP 地址、源端口、传输层协议号 (协议类型)、目的 IP 地址、目的端口,因而在理论上,Server 不受系统端口数的限制。但是 Server 对每个端口上的连接数是有限制的,它要使用哈希表记录端口上的每个连接,并受到文件描述符的最大打开数的限制。所以,如果 Server 主动关闭连接,同样会有大量的连接在关闭后处于 TIME_WAIT 状态,等待 2MSL 的时间后才能释放网络资源 (包括哈希表上的连接记录和文件描述符),于是 Server 会由于达到哈希表和文件描述符的限制而无法接受新连接,造成性能的急剧下滑,性能曲线会持续产生严重的波动。对于这种情况,有三种应对方式:

试图让 Client 主动关闭连接,由于每个 Client 的并发量都比较低,因而不会产生性能瓶颈。
优化 Server 的系统 TCP 参数,使其网络资源的最大值、消耗速度和恢复速度达到平衡。
改写 TCP 协议,重新实现底层代码,不过该方式难度很大,而且系统的稳定性和安全性可能受到影响。

理解 / proc/sys/net 目录下参数

所有的 TCP/IP 参数都位于 / proc/sys/net 目录下 (请注意,对 / proc/sys/net 目录下内容的修改都是临时的,任何修改在系统重启后都会丢失),例如下面这些重要的参数:

参数 (路径 + 文件)

描述

默认值

优化值

/proc/sys/net/core/rmem_default

默认的 TCP 数据接收窗口大小 (字节)。

229376

256960

/proc/sys/net/core/rmem_max 最大的 TCP 数据接收窗口 (字节)。

131071

513920

/proc/sys/net/core/wmem_default 默认的 TCP 数据发送窗口大小 (字节)。

229376

256960

/proc/sys/net/core/wmem_max 最大的 TCP 数据发送窗口 (字节)。

131071

513920

/proc/sys/net/core/netdev_max_backlog 在每个网络接口接收数据包的速率比内核处理这些包的速率快时,允许送到队列的数据包的最大数目。

1000

2000

/proc/sys/net/core/somaxconn 定义了系统中每一个端口最大的监听队列的长度,这是个全局的参数。

128

2048

/proc/sys/net/core/optmem_max 表示每个套接字所允许的最大缓冲区的大小。

20480

81920

/proc/sys/net/ipv4/tcp_mem 确定 TCP 栈应该如何反映内存使用,每个值的单位都是内存页 (通常是 4KB)。第一个值是内存使用的下限;第二个值是内存压力模式开始对缓冲区使用应用压力的上限;第三个值是内存使用的上限。在这个层次上可以将报文丢弃,从而减少对内存的使用。对于较大的 BDP 可以增大这些值 (注意,其单位是内存页而不是字节)。

94011  125351  188022

131072  262144  524288

/proc/sys/net/ipv4/tcp_rmem 为自动调优定义 socket 使用的内存。第一个值是为 socket 接收缓冲区分配的最少字节数;第二个值是默认值 (该值会被 rmem_default 覆盖),缓冲区在系统负载不重的情况下可以增长到这个值;第三个值是接收缓冲区空间的最大字节数 (该值会被 rmem_max 覆盖)。

4096  87380  4011232

8760  256960  4088000

/proc/sys/net/ipv4/tcp_wmem 为自动调优定义 socket 使用的内存。第一个值是为 socket 发送缓冲区分配的最少字节数;第二个值是默认值 (该值会被 wmem_default 覆盖),缓冲区在系统负载不重的情况下可以增长到这个值;第三个值是发送缓冲区空间的最大字节数 (该值会被 wmem_max 覆盖)。

4096  16384  4011232

8760  256960  4088000

/proc/sys/net/ipv4/tcp_keepalive_time TCP 发送 keepalive 探测消息的间隔时间 (秒),用于确认 TCP 连接是否有效。

7200

1800

/proc/sys/net/ipv4/tcp_keepalive_intvl 探测消息未获得响应时,重发该消息的间隔时间 (秒)。

75

30

/proc/sys/net/ipv4/tcp_keepalive_probes 在认定 TCP 连接失效之前,最多发送多少个 keepalive 探测消息。

9

3

/proc/sys/net/ipv4/tcp_sack 启用有选择的应答 (1 表示启用),通过有选择地应答乱序接收到的报文来提高性能,让发送者只发送丢失的报文段,(对于广域网通信来说) 这个选项应该启用,但是会增加对 CPU 的占用。

1

1

/proc/sys/net/ipv4/tcp_fack 启用转发应答,可以进行有选择应答 (SACK) 从而减少拥塞情况的发生,这个选项也应该启用。

1

1

/proc/sys/net/ipv4/tcp_timestamps TCP 时间戳 (会在 TCP 包头增加 12 个字节),以一种比重发超时更精确的方法(参考 RFC 1323) 来启用对 RTT 的计算,为实现更好的性能应该启用这个选项。

1

1

/proc/sys/net/ipv4/tcp_window_scaling 启用 RFC 1323 定义的 window scaling,要支持超过 64KB 的 TCP 窗口,必须启用该值 (1 表示启用),TCP 窗口最大至 1GB,TCP 连接双方都启用时才生效。

1

1

/proc/sys/net/ipv4/tcp_syncookies 表示是否打开 TCP 同步标签 (syncookie),内核必须打开了 CONFIG_SYN_COOKIES 项进行编译,同步标签可以防止一个套接字在有过多试图连接到达时引起过载。

1

1

/proc/sys/net/ipv4/tcp_tw_reuse 表示是否允许将处于 TIME-WAIT 状态的 socket(TIME-WAIT 的端口) 用于新的 TCP 连接 。

0

1

/proc/sys/net/ipv4/tcp_tw_recycle 能够更快地回收 TIME-WAIT 套接字。

0

1

/proc/sys/net/ipv4/tcp_fin_timeout 对于本端断开的 socket 连接,TCP 保持在 FIN-WAIT-2 状态的时间 (秒)。对方可能会断开连接或一直不结束连接或不可预料的进程死亡。

60

30

/proc/sys/net/ipv4/ip_local_port_range 表示 TCP/UDP 协议允许使用的本地端口号

32768  61000

1024  65000

/proc/sys/net/ipv4/tcp_max_syn_backlog 对于还未获得对方确认的连接请求,可保存在队列中的最大数目。如果服务器经常出现过载,可以尝试增加这个数字。

2048

2048

/proc/sys/net/ipv4/tcp_low_latency 允许 TCP/IP 栈适应在高吞吐量情况下低延时的情况,这个选项应该禁用。

0

/proc/sys/net/ipv4/tcp_westwood 启用发送者端的拥塞控制算法,它可以维护对吞吐量的评估,并试图对带宽的整体利用情况进行优化,对于 WAN 通信来说应该启用这个选项。

0

/proc/sys/net/ipv4/tcp_bic 为快速长距离网络启用 Binary Increase Congestion,这样可以更好地利用以 GB 速度进行操作的链接,对于 WAN 通信应该启用这个选项。

1

 

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注