HTTP 的请求和响应-知识专区-汉码未来

当前位置： Python > HTTP 的请求和响应

admin · 更新于 2021-08-06

上一个小节中，我们简单的介绍了 HTTP 协议，但是，并没有针对 HTTP 的请求和响应进行更详尽的描述。但是，分析请求和响应信息是我们进行爬虫工作中的重要步骤，因此，有必要详细的介绍这两个步骤。

我们还是复用之前的访问汉码未来的例子进行 HTTP 协议的解析。关于怎么获取请求头和响应头的信息的内容，我们会在后面讲解第一个爬虫的时候进行讲解。

使用 get 方法请求汉码未来的请求信息如下：

GET / HTTP/1.1Host: www.hanma.comConnection: keep-aliveCache-Control: max-age=0代码块
1
2
3
4
5

HTTP 请求主要有四部分组成。分别是请求行，请求头部，空行和请求数据。

1. 请求行

我们先来看下第一部分，请求行：

GET / HTTP/1.1代码块
1

请求行里的 GET 是请求方法。请求方法主要是告诉服务器端，客户端要对资源实行什么样的具体操作，方便服务器进行响应的处理。

HTTP 1.0 规定的方法： GET，POST，HEAD；
HTTP 1.1 新增的请求方法：OPTIONS，PUT，DELETE，TRACE，CONNECT；
HTTP 规定的主要请求如下表所示，我们主要使用的实际上就是 get，post 这两个请求。

常用的请求方法

序号	请求方法	方法描述
1	GET	用来获取服务器的信息。
2	POST	用于创建一个文件，请求是非幂等的。
3	HEAD	通过这个来获取响应的报头文件，不包含的具体内容。
4	PUT	主要是用来更新文件，这个方法对服务器来讲，应该是幂等的。
5	DELETE	这个命令是用来请求让服务器端来删除特定的信息。
6	OPTIONS	这个方法可以让客户端可以查看服务器可以提供的请求方法等信息。
7	TRACE	这个主要用于测试和诊断，可以回显服务器的信息。
8	CONNECT	HTTP/1.1协议中预留的请求方法，不常使用。

Get 后面的 / 是来标明请求的资源信息，我们这里是想访问汉码未来的主页，所以写 /。 HTTP/1.1 指的是 HTTP 的协议版本。

Tips：HTTP 是在 1990 左右提出的协议，距今已经有几十年的历史了。广泛使用的版本有 1.0,1.1，现在也有 2.0 的版本，不过还没有普及。除此之外，对安全要求高的一些网站，也有的开始采用 HTTPS 协议进行传输。HTTPS 提供了更多的安全校验，是利用 SSL/TLS 技术进行加密的，相对于普通的 HTTP，更加安全，隐私更不容易泄露。

好了说完了请求行，让我们来介绍一下请求头部。

2. 请求头

从第二行开始，都是请求头部的信息，比如我第二行的 Host: www.hanma.com，用来表明请求的地址是什么。还有一些其他的信息，比如浏览器可接受的语言类型，字体编码，Cookie 等信息。

接下来是空行，不必多说。最后面的一部分是我们的请求的具体内容，请求内容可以是表单，也可以是 JSON 等格式。

3. HTTP响应

正如 HTTP 请求包含四部分一样，HTTP 的响应同样包含四个部分。分别是状态行，消息报头，空行，以及响应正文。

下面这个是我们访问汉码未来后，返回的信息：

HTTP/1.1 200 OKServer: nginxContent-Type: text/html; charset=UTF-8Content-Length: 49930Connection: keep-alive<HTML>....代码块
1
2
3
4
5
6
7

第一行为状态行，同样的，需要标明 HTTP 协议的版本，然后后面是一个状态码。这里的 200 表示请求成功。OK 是用来表明请求的状态消息，通过消息我们可以对请求的错误进行定位。

常见的状态码如下表所示：

状态码	解释
200 OK	请求成功
400 Bad Request	请求消息有语法错误。
401 Unauthorized	未经授权，必须和WWW-Authenticate报头域一起使用。
403 Forbidden	拒绝提供服务
404 Not Found	请求的资源不存在，或者被移除了
500 Internal Server Error	服务器端错误，通常是服务器端代码逻辑错误造成的
503 Server Unavailable	服务不可用，有可能需要等一段时间进行恢复

Tips：总结一下规律，2 开头的意味着成功，3 开头的大部分是重定向，4 开头是客户端错误，5 开头的是服务器端的错误。

第二行的 Server: nginx表明了服务器端采用的服务器名称。Content-Length: 49930 是消息报头表明了服务器返回的 HTML 内容的长度。Connection: keep-alive 是空行，空行必须要有，不可省略。最后是响应正文，一般会是一个 HTML 文档。