爬虫前知 | 逆光海

前言

HTTP：超文本传输协议，默认端口号是80
- 超文本：是指超过文本，不仅限于文本；还包括图片、音频、视频等文件
- 传输协议：是指使用共用约定的固定格式来传递转换成字符串的超文本内容
HTTPS：HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协，默认端口号：443
- SSL对传输的内容（超文本，也就是请求体或响应体）进行加密
可以打开浏览器访问一个url，右键检查，点击net work，点选一个url，查看http协议的形式

注:HTTPS比HTTP更安全，但是性能更低

爬虫特别关注的请求头和响应头

http请求的形式如上图所示，爬虫特别关注以下几个请求头字段

加粗的请求头为常用请求头

http响应的形式如上图所示，爬虫只关注一个响应头字段

Set-Cookie （对方服务器设置cookie到用户浏览器的缓存）

200：成功
302：跳转，新的url在响应的Location头中给出
303：浏览器对于POST的响应进行重定向至新的url
307：浏览器对于GET的响应重定向至新的url
403：资源不可用；服务器理解客户的请求，但拒绝处理它（没有权限）
404：找不到该页面
500：服务器内部错误
503：服务器由于维护或者负载过重未能应答，在响应中可能可能会携带Retry-After响应头；有可能是因为爬虫频繁访问url，使服务器忽视爬虫的请求，最终返回503响应状态码

所有的状态码都不可信，一切以是否从抓包得到的响应中获取到数据为准

但是在爬虫中,我们只会请求url地址,对应的拿到url地址对应的响应（该响应的内容可以是html，css，js，图片等）;爬虫没有渲染能力

所以浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样