python爬虫-学习笔记-大纲

爬虫:爬取互联网上的信息,

阶段一:数据挖掘  爬取整个网站的全部的信息

阶段二:数据清洗   筛选想要的信息

学习大纲:

  1. 数据挖掘阶段:两个库
  • urilib库数据挖掘(python内置模块)
  • requests库数据挖掘(需要安装下载的模块)
  1. 数据清洗阶段:三种方式
  • 正则表达式
  • xpath表达式
  • BeautifulSoup模块
  1. 多线程爬虫和验证码识别
  2. scrapy框架

哈哈,说是要有python的基础知识,然而才学了一点,哈哈,下次再会

猜你喜欢

转载自blog.csdn.net/tammysong/article/details/88172869