Python网络爬虫遇到的问题

  NotImplementedError: Only the following pseudo-classes are implemented: nth-of-type

    1、nth-child 改为 nth-of-type(1)

    2、li:nth-of-type(1)为1条信息,li为多条信息

缩进错误:点击打开链接

import time

    1、导入time模块目的是防止请求网页频率过快而导致爬虫失败

爬虫程序运行没问题,但没显示结果或结果不全

    1、有些网站针对每一个ip,单位时间内只能访问一定次数,至于单位时间是多少看网站规定吧,超过这个次数就不能访问爬去           了,就只有等了,等多久,看那个网站的规定吧

   

    2、可以运行,写入txt文本不会创建文本,那要么是选择器问题,换一个选择器;要么是选择器里面的内容有问题导致没有

           爬取到结果

xlwt库,写入表格

    sheet.write(i,j,第i行j列写入的东西)

    写入表格时,定义的空表格要在全局,否则每次写入表格都会把前一次表格覆盖掉,导致爬取不完整

requests.get()

        接受url,第二个参数接受key-value类型的参数

请求头     

        HTTP请求包括:一个请求行,若干请求头,实体内容

            1、http请求细节----请求行:

                1)请求方式:post、get、head、options、delete、trace、put;

                2)常用post、get

                3)post、get区别:表现在数据传递上

                A)get方式可在url地址后以?形式带上交给服务器的数据,多个数据之间以&分隔,但数据容量不能超过1k;

                B)post可在请求的实体中向服务器发送请求,传送数据量无限制

            2、http请求头 

                Accept:告诉服务器  客户机支持的数据类型

                Accept-Charset:告诉服务器,客户机采用的编码

                Accept-Encoding:告诉服务器,客户机支持的压缩格式

                Accept-Language:客户机的语言环境

                Host:客户机通过这个头告诉服务器想访问的主机

           3、例如:headers = {
                          'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64)AppleWebKit/537.36 (KHTML, like Gecko)                                                Chrome/67.0.3396.99                              Safari/537.36'

            }

                         :两边都分别用引号括起来,开头不允许有空格

          4、有些有着反爬机制的网站,请求头要写全,否则会被屏蔽


 

    

猜你喜欢

转载自blog.csdn.net/zjkpy_5/article/details/80887981