Episódio 01 de seleção do rastreador Python (rastreador de primeiro encontro)

Episódio 01 de seleção do rastreador Python (rastreador de primeiro encontro)

portal de diretório de aprendizagem python

Visão geral dos rastreadores da web

1. Definição

  • Aranhas da web, robôs da web, programas que coletam dados da web.

  • Na verdade, é usar programas Python para imitar as pessoas que clicam no navegador e visitam o site, e quanto mais realista a imitação, melhor.

Em segundo lugar, o objetivo de rastrear dados

  • Obtenha grandes quantidades de dados para análise de dados
  • Dados de teste de projetos da empresa, dados necessários para os negócios da empresa

3. Como as empresas obtêm dados

  • Dados próprios da empresa

  • Compra de uma plataforma de dados de terceiros (Data Hall, Guiyang Big Data Exchange)

  • Dados de rastreamento do rastreador

Quarto, as vantagens do python como rastreador

1、Python :请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架

2、PHP :对多线程、异步支持不太好

3、JAVA:代码笨重,代码量大

4、C/C++:虽然效率高,但是代码成型慢

Cinco, classificação do rastreador

1、通用网络爬虫(搜索引擎使用,遵守robots协议)

	robots协议 :网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,

	通用网络爬虫需要遵守robots协议(君子协议)

	https://www.taobao.com/robots.txt

2、聚焦网络爬虫 :自己写的爬虫程序

Seis, etapas de dados de rastreamento do rastreador

1、确定需要爬取的URL地址

2、由请求模块向URL地址发出请求,并得到网站的响应

3、从响应内容中提取所需数据

	① 所需数据,保存

	② 页面中有其他需要继续跟进的URL地址,继续第2步去发请求,如此循环

Acho que você gosta

Origin blog.csdn.net/weixin_38640052/article/details/107351809
Recomendado
Clasificación