Python爬虫之一

1. 爬虫的选取:scrapy和requests+beautifuisoup

  scrapy是框架,而requests和beautifulsoup是库。scrapy框架是可以加如requests和beautifulsoup库的,而scrapy是基于twisted,性能是最大的优势。scrapy方便扩展,提供很多内置的功能。scrapy内置的css和xpath selector非常方便,beautifulsoup就是有点慢。

2.常见网页分类

  静态网页,动态网页、webservice

3.爬虫能做什么

  1)搜索引擎---百度、google、垂直领域搜索引擎

  2)推荐引擎---今日头条

  3)机器学习的数据样本

  4)数据分析(如金融数据分析)、舆情分析等

4.正则表达式

  1)特殊字符(^)

代码:
      import re
      """
      1^"必须是^后面的字符"
      2) .是除了\n的任意字符
      3) *是一个限定符,用来修饰前一个字符或分组,限定匹配重复的数量为任意数量。
      """
      #”^“”.“”ד测试
      test_str = "zzbaby"
      reg_str = "^b.*"
      if re.match(reg_str,test_str):
        print("yes")
      else:
        print("no")

结果:

    no 

  2)特殊字符($)

代码:

猜你喜欢

转载自www.cnblogs.com/hhxz/p/10574121.html