网页状态码及其处理

记录一下在学习爬虫过程中遇到的几种网页的状态码以及处理方法

写几个主要的,像200这样访问成功的状态码就没有必要写下来了。

状态码及其含义

400 Bad Request 客户端请求有语法错误,不能被服务器所理解
401 Unauthorized 请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用
403 Forbidden 服务器收到请求,但是拒绝提供服务
404 Not Found 请求资源不存在,eg:输入了错误的URL
500 Internal Server Error 服务器发生不可预期的错误
503 Server Unavailable 服务器当前不能处理客户端的请求,一段时间后可能恢复正常

处理方法

400 Bad Request - 检查请求的参数或者路径

401 Unauthorized - 如果需要授权的网页,尝试重新登录

403 Forbidden

  • 如果是需要登录的网站,尝试重新登录
  • IP被封,暂停爬取,并增加爬虫的等待时间,如果拨号网络,尝试重新联网更改IP

404 - Not Found 直接丢弃
5XX - 服务器错误,直接丢弃,并计数,如果连续不成功,WARNING 并停
止爬取

本文地址:http://damiantuan.xyz/2017/12/03/网页状态码及其处理/
转载请注明出处,谢谢!

坚持原创技术分享,您的支持将鼓励我继续创作!
-------------本文结束感谢您的阅读-------------