Python网络爬虫遇到的问题

NotImplementedError: Only the following pseudo-classes are implemented: nth-of-type

1、nth-child 改为 nth-of-type(1)

2、li:nth-of-type(1)为1条信息，li为多条信息

import time

1、导入time模块目的是防止请求网页频率过快而导致爬虫失败

爬虫程序运行没问题，但没显示结果或结果不全

1、有些网站针对每一个ip，单位时间内只能访问一定次数，至于单位时间是多少看网站规定吧，超过这个次数就不能访问爬去了，就只有等了，等多久，看那个网站的规定吧

2、可以运行，写入txt文本不会创建文本，那要么是选择器问题，换一个选择器；要么是选择器里面的内容有问题导致没有

爬取到结果

xlwt库，写入表格

sheet.write(i,j,第i行j列写入的东西)

写入表格时，定义的空表格要在全局，否则每次写入表格都会把前一次表格覆盖掉，导致爬取不完整

requests.get()

接受url，第二个参数接受key-value类型的参数

请求头

HTTP请求包括：一个请求行，若干请求头，实体内容

1、http请求细节----请求行：

1）请求方式：post、get、head、options、delete、trace、put;

2)常用post、get

3)post、get区别：表现在数据传递上

A)get方式可在url地址后以?形式带上交给服务器的数据，多个数据之间以&分隔，但数据容量不能超过1k;

B)post可在请求的实体中向服务器发送请求，传送数据量无限制

2、http请求头

Accept：告诉服务器客户机支持的数据类型

Accept-Charset：告诉服务器，客户机采用的编码

Accept-Encoding:告诉服务器，客户机支持的压缩格式

Accept-Language:客户机的语言环境

Host:客户机通过这个头告诉服务器想访问的主机

3、例如：headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

}

：两边都分别用引号括起来，开头不允许有空格

4、有些有着反爬机制的网站，请求头要写全，否则会被屏蔽