Linux 内核网络之 Listen 的实现

listen 系统调用用于通知进程准备接受套接口上的连接请求,它同时也指定套接口上可以排队等待的连接数的门限值。超过门限值时,套接口将拒绝新的连接请求,TCP 将忽略进入的连接请求。
首页 新闻资讯 行业资讯 Linux 内核网络之 Listen 的实现

listen 系统调用用于通知进程准备接受套接口上的连接请求,它同时也指定套接口上可以排队等待的连接数的门限值。超过门限值时,套接口将拒绝新的连接请求,TCP 将忽略进入的连接请求。

复制

/*fd, 进行监听的套接口的文件描述符backlog,为指定连接队列长度的最大值*/asmlinkage long sys_listen(int fd, int backlog)
{struct socket *sock;int err, fput_needed;//根据文件描述符获取套接口指针,同时返回是否需要减少对文件引用计数的标志sock = sockfd_lookup_light(fd, &err, &fput_needed);if (sock) {//对参数门限值做检验,门限值不能超过上限if ((unsigned)backlog > sysctl_somaxconn)backlog = sysctl_somaxconn;// 安全检查err = security_socket_listen(sock, backlog);/*通过套接口系统调用的跳转表proto_ops结构,调用对应传输层协议中的 listen 操作。SOCK_DGRAM 和 SOCK_RAW 类型不支持listen,只有 SOCK_STREAM 类型支持listen接口,TCP中为 inet_listen()*/if (!err)err = sock->ops->listen(sock, backlog); //inet_listen()//根据 fput_needed,调用fput_light减少对文件引用计数操作fput_light(sock->file, fput_needed);
}return err;
}上述的函数功能就是通过文件描述符获取对应的套接口指针,然后调用 inet_listen 进行监听操作。int inet_listen(struct socket *sock, int backlog)
{struct sock *sk = sock->sk;unsigned char old_state;int err;lock_sock(sk);/**只有插口的类型为 SOCK_STREAM,即“有连接”模式的插口,并且已经为其 bind()了插口地址,才允许 listen()。*对于符合这些条件的插口也不是什么时候都可以调用 listen()的。*插口的 sock结构中有个成分 state,用来实现一种“有限状态机”。只有当这个状态机处于 TCP_CLOSE 或 TCP_LISTEN*这两种状态时才可以对其调用 listen()。*在前面 sock_create()的代码中可以看到在创建一个插口时要调用函数 sock_init_data()对分配的sock数据结构进行初始化,*在那里state被设置成 TCP_CLOSE。*状态TCP_CLOSE 表示插口只是刚刚建立,尚未宣布成为 server 插口;*TCP_LISTEN 则表示插口已经设置成 server 插口,当尚未建立起连接,并且不是在等待来自 client 一方的连接请求。*只有在这两种状态下才允许改变插口的参数(主要是连接请求队列的容量)。*/err = -EINVAL;if (sock->state != SS_UNCONNECTED || sock->type != SOCK_STREAM)goto out;old_state = sk->sk_state;if (!((1 << old_state) & (TCPF_CLOSE | TCPF_LISTEN)))goto out;/* Really, if the socket is already in listen state• we can only allow the backlog to be adjusted./if (old_state != TCP_LISTEN) {err = inet_csk_listen_start(sk, backlog);/ 开始侦听 */if (err)goto out;
}sk->sk_max_ack_backlog = backlog;err = 0;out:release_sock(sk);return err;
}int inet_csk_listen_start(struct sock *sk, const int nr_table_entries)
{struct inet_sock *inet = inet_sk(sk);struct inet_connection_sock *icsk = inet_csk(sk);//创建接收队列,并把该队列和传输控制块绑定int rc = reqsk_queue_alloc(&icsk->icsk_accept_queue, nr_table_entries);if (rc != 0)return rc;sk->sk_max_ack_backlog = 0;sk->sk_ack_backlog = 0;inet_csk_delack_init(sk);/* There is race window here: we announce ourselves listening,• but this transition is still not validated by get_port().• It is OK, because this socket enters to hash table only• after validation is complete.// 设置控制块的状态 /sk->sk_state = TCP_LISTEN;/ 检查端口是否仍然可用,防止bind()后其它进程修改了端口信息 */if (!sk->sk_prot->get_port(sk, inet->num)) { // tcp_v4_get_port()inet->sport = htons(inet->num);sk_dst_reset(sk);/* 把sock链接入监听哈希表中 */sk->sk_prot->hash(sk); // tcp_v4_hashreturn 0;
}sk->sk_state = TCP_CLOSE;__reqsk_queue_destroy(&icsk->icsk_accept_queue);return -EADDRINUSE;
}
  • 1.

  • 2.

  • 3.

  • 4.

  • 5.

  • 6.

  • 7.

  • 8.

  • 9.

  • 10.

  • 11.

  • 12.

  • 13.

  • 14.

  • 15.

  • 16.

  • 17.

  • 18.

  • 19.

  • 20.

  • 21.

  • 22.

  • 23.

  • 24.

  • 25.

  • 26.

  • 27.

  • 28.

  • 29.

  • 30.

  • 31.

  • 32.

  • 33.

  • 34.

  • 35.

  • 36.

  • 37.

  • 38.

  • 39.

  • 40.

  • 41.

  • 42.

  • 43.

  • 44.

  • 45.

  • 46.

  • 47.

  • 48.

  • 49.

  • 50.

  • 51.

  • 52.

  • 53.

  • 54.

  • 55.

  • 56.

  • 57.

  • 58.

  • 59.

  • 60.

  • 61.

  • 62.

  • 63.

  • 64.

  • 65.

  • 66.

  • 67.

  • 68.

  • 69.

  • 70.

  • 71.

  • 72.

  • 73.

  • 74.

  • 75.

  • 76.

  • 77.

  • 78.

  • 79.

  • 80.

  • 81.

  • 82.

  • 83.

  • 84.

  • 85.

  • 86.

  • 87.

  • 88.

  • 89.

  • 90.

  • 91.

  • 92.

  • 93.

  • 94.

  • 95.

  • 96.

启动监听时,做的工作主要包括:

创建半连接队列的实例,初始化全连接队列。 初始化 sock 的一些变量,把它的状态设为 TCP_LISTEN。 检查端口是否可用,防止bind()后其它进程修改了端口信息。 把sock链接进入监听哈希表 listening_hash 中。

创建半连接队列

listen_sock 结构用于保存 SYN_RECV 状态的连接请求块,所以也叫半连接队列。

queue 为连接请求控制块,nr_table_entries 为半连接的最大个数,即 backlog。

复制

int sysctl_max_syn_backlog = 256;int reqsk_queue_alloc(struct request_sock_queue *queue,unsigned int nr_table_entries)
{size_t lopt_size = sizeof(struct listen_sock);struct listen_sock *lopt;/* nr_table_entries必需在[8, sysctl_max_syn_backlog]之间,默认是[8, 256]• 但实际上在sys_listen()中要求backlog <= sysctl_somaxconn(默认为128)• 所以此时默认区间为[8, 128]/nr_table_entries = min_t(u32, nr_table_entries, sysctl_max_syn_backlog);nr_table_entries = max_t(u32, nr_table_entries, 8);/ 使nr_table_entries = 2^n,向上取整 */nr_table_entries = roundup_pow_of_two(nr_table_entries + 1);//为半连接队列申请内存lopt_size += nr_table_entries * sizeof(struct request_sock );if (lopt_size > PAGE_SIZE)/ 如果申请内存大于1页,则申请虚拟地址连续的空间 /lopt = __vmalloc(lopt_size,GFP_KERNEL | __GFP_HIGHMEM | __GFP_ZERO,PAGE_KERNEL);else/ 申请内存在1页内,则申请物理地址连续的空间 */lopt = kzalloc(lopt_size, GFP_KERNEL);if (lopt == NULL)return -ENOMEM;for (lopt->max_qlen_log = 3;
(1 << lopt->max_qlen_log) < nr_table_entries;lopt->max_qlen_log++);/* 获取一个随机数 */get_random_bytes(&lopt->hash_rnd, sizeof(lopt->hash_rnd));rwlock_init(&queue->syn_wait_lock);//全连接队列头初始化queue->rskq_accept_head = NULL;// 半连接队列的最大长度lopt->nr_table_entries = nr_table_entries;write_lock_bh(&queue->syn_wait_lock);//半连接队列设置queue->listen_opt = lopt;write_unlock_bh(&queue->syn_wait_lock);return 0;
}
  • 1.

  • 2.

  • 3.

  • 4.

  • 5.

  • 6.

  • 7.

  • 8.

  • 9.

  • 10.

  • 11.

  • 12.

  • 13.

  • 14.

  • 15.

  • 16.

  • 17.

  • 18.

  • 19.

  • 20.

  • 21.

  • 22.

  • 23.

  • 24.

  • 25.

  • 26.

  • 27.

  • 28.

  • 29.

  • 30.

  • 31.

  • 32.

  • 33.

  • 34.

  • 35.

  • 36.

  • 37.

  • 38.

  • 39.

  • 40.

  • 41.

  • 42.

93a6c6642dac029882c7275f26d7c72c3e9d46.png

12    2023-03-01 23:56:11    Linux listen 进程