爬虫url去重策略&&字符串编码

 爬虫url去重策略:

  1. 将访问过的url保存到数据库中;
  2. 将访问过得url保存到set中,只需要o(1)的代价就可以查询url
  3. url 经过md5的编码等方法哈希后保存到set中(scrapy采用此方法)
  4. 用bitmap方法,将访问过的url通过hash函数映射到某一位
  5. Bloomfilter方法对bitmap进行改进,多重hash函数降低冲突;

字符串编码:

  1. 计算机只能处理数字,文本转化为数字才能处理。计算机中8bit作为一个字节,所以一共字节能表示最大数字为255
  2. Ascll(一个字节)美国人的标准编码;
  3. GB2312编码,两个字节表示一个汉字;
  4. Unicode出现将所有语言统一到一套编码里;
  5. 乱码问题解决,全是英文,uniconde编码比Ascll需要多一倍存储空间;
  6. 可变长的编码“utf-8”;把英文变成一个字节,汉字3个字节。传输大量的英文,utf-8作用很明显;
  7. Utf-8unicode的区别;
    Unicode 是「字符集」 UTF-8 是「编码规则」                                                                                                                            其中: 字符集:为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code Point)                                                                编码规则:将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)

猜你喜欢

转载自blog.csdn.net/qq_42633222/article/details/90170884