HTTP是如何工作的?

上一次对计算机网络基础的分层模型与几个基础协议,现在来看看HTTP作为应用层协议是如何工作的?

HTTP协议

HTTP是基于TCP的应用最广泛的一种网络协议,它是基于请求/响应模式的协议,并且默认端口是80。HTTP具有GET、POST、PUT、DELETE、OPTION等方法,每种方法与服务器交互的类型不同,现在常见的RESTful风格API正是运用了这些方法来达到同样的路径不同的表现效果。HTTP传输的数据是以文本为基础的,由于文本是极具有灵活性的,HTTP中通过Content-Type来标记传输的数据是什么样的类型。HTTP还具有无连接、无状态的特性,无连接是指每次只处理一个请求,即不维护连接,在响应数据后就断开连接。无状态指的是不对处理进行记忆,每一个请求就像是新的一样。

TCP三次握手与四次挥手

HTTP是基于TCP的协议,因此需要与目标机器建立TCP连接,连接的建立过程我们称为三次握手,并且由于HTTP是请求/响应模式的,因此传输完数据后会释放连接,释放连接的过程称为四次挥手。首先来看看什么是三次握手:

  • 客户端先发送一个seq=1SYN数据包,表示需要建立连接,此时客户端进入SYN_SENT状态。
  • 服务端收到SYN后需要对这个请求进行确认,并同样回以一个SYN包说明与客户端建立连接,因此第二次握手就是发送了一个ACK+SYN包,这个包同样包含seq序列号,发送完这个包之后,服务端进入SYN_RECV状态。
  • 客户端在收到ACK+SYN包之后,知道服务端已经确认建立连接了,并且同样请求建立连接,因此需要回复ACK表示确认建立连接,最终双方都进入ESTABLISHED状态,双方可以进行数据传输了。

这就是三次握手的过程,由于一开始双方都是建立连接,因此在第二次握手的过程中,完成了确认连接和发起建立连接两件事,因此相对于四次挥手少了一次交互。接下来我们再看看四次挥手是怎么样的。

  • 客户端发送FIN包表示需要释放连接,客户端进入FIN_WAIT_1状态,等待服务端的确认包。
  • 服务端发送ACK确认释放连接,此时连接以半开的状态存在,即服务端与客户端建立的连接还未释放,服务端进入CLOSE_WAIT状态。
  • 当服务端没有数据发送时,将会发送FIN包给客户端,服务端进入LAST_ACK状态,接收到最后一个确认报文就可以关闭连接了。
  • 客户端收到服务端的FIN包,响应ACK确认释放,客户端进入TIME_WAIT状态,需要等待2倍的MSL(最大报文段生存时间)之后才会关闭,此时服务端收到了ACK进入CLOSED状态,释放连接。

ARP寻址

ARP提供了将IP地址转换为链路层地址的机制,并且只为同个子网的主机和路由解析IP地址。

  • 首先查询主机的ARP缓存中是否存在目标主机的MAC地址,如果没有则需要确定目标地址是否与主机的IP在同个子网下,通过主机IP&子网掩码与目标地址&子网掩码对比,看看是否处于同个子网下。
  • 如果处于同个子网,则广播ARP数据包去查找对应IP的主机的MAC地址,如果不是同个子网,则需要找到对应的网关的MAC,然后通过网关进行转发,即是将网关当成是目标机器,其余的流程一样。
  • 目标机器收到ARP后会对比IP是否为本机IP,如果是,则将自己的MAC地址填写到ARP响应中,主机收到响应后将MAC写入ARP缓存,接下来就可以与目标主机进行数据传输了。

在浏览器中输入网址请求页面的过程

在浏览器输入网址后请求页面,将会产生2个步骤:

  • 解析地址
    • 查询本地域名服务器是否存在该域名缓存,如果存在,进入下一个步骤。
    • 查询根域名服务器,获取对应的主域名服务器。
    • 从主域名服务器中获取该域名对应的服务器地址。
  • 请求页面
    • 有了服务器地址之后,就可以发送HTTP请求了,中间省略ARP、IP寻址的过程。
    • 请求到达服务器后,服务器根据业务逻辑处理资源,然后将资源数据响应给客户端。
    • 客户端收到响应后,将HTML进行渲染出来,渲染时可能会产生额外的请求,比如页面中引入了CDN资源,浏览器会去。

总结

其实这里的TCP三次握手和四次挥手以及ARP都是网络基础中的内容,放在HTTP中,能够从上到下完整的了解HTTP从应用层到物理层传输到另一台机子上的过程发生了什么事。

参考资料

【简书】TCP详解