爬虫基础

发表于 2022-08-09 更新于 2023-12-22 分类于爬虫

爬虫需要掌握的基础知识

HTTP 基本原理

参考资料：

HTTP 教程 | 菜鸟教程 (runoob.com)

URI: 统一资源标识符

URL: 统一资源定位符

URN: 统一资源名称

现在互联网，URN 用得很少，一般网页链接🔗称为 URL

网页源代码 HTML 称为超文本

HTTP: 超文本传输协议

HTTPS:HTTP 下加入 SSL 层

我们利用浏览器” 检查 “工具的网络来观察这个过程

请求由客户端发出，分为 4 部分

请求方法: Request Method

请求网址: Request URL

请求头: Request Headers

请求体: Request Body

常见的为：GET 和 POST

GET 与 POST 区别

GET 的参数在 URL 里面，而 POST 请求的数据以表单传输，包含在请求体

GET 的数据只有 1024 字节，而 POST 没有限制

其他请求方法

请求的网址即 URL

Accept: 请求报头域，指定客户端接收哪些类型的信息
Accept-Language: 指定客户端可接受语言类型
Host: 指定请求资源的主机 IP 和端口
Cookie: 储存在用户本地终端上的数据, 特定的 web 文档关联在一起, 保存了该客户机访问这个 Web 文档时的信息, 当客户机再次访问这个 Web 文档时这些信息可供该文档使用。
Referer: 标识请求是从那个页面发过来的
User-Agent: 一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
Content-Type: 内容类型，一般是指网页中存在的 Content-Type，用于定义网络文件的类型和网页的编码，决定文件接收方将以什么形式、什么编码读取这个文件

请求体承载的是 POST 的表单数据，对于 GET，请求为空

常见的 HTTP 状态码：

响应头包含服务器对请求的应答信息，如 Content-Type、Sever、Set-Cookie

响应体包含响应的正文数据

网页是由 HTML、CSS、JavaScript 组成

如果想学爬虫，必须要点 Web 基础