Episodio 01 de selección del rastreador de Python (primer rastreador de encuentro)

Episodio 01 de selección del rastreador de Python (primer rastreador de encuentro)

portal del directorio de aprendizaje de Python

Descripción general de los rastreadores web

1. Definición

  • Arañas web, robots web, programas que capturan datos web.

  • De hecho, se trata de utilizar programas de Python para imitar a las personas que hacen clic en el navegador y visitan el sitio web, y cuanto más realista sea la imitación, mejor.

En segundo lugar, el propósito de rastrear datos

  • Obtenga grandes cantidades de datos para el análisis de datos.
  • Datos de prueba de proyectos de la empresa, datos necesarios para el negocio de la empresa

3. Cómo obtienen los datos las empresas

  • Datos propios de la empresa

  • Compra desde una plataforma de datos de terceros (Data Hall, Guiyang Big Data Exchange)

  • Datos de rastreo del rastreador

Cuarto, las ventajas de Python como rastreador.

1、Python :请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架

2、PHP :对多线程、异步支持不太好

3、JAVA:代码笨重,代码量大

4、C/C++:虽然效率高,但是代码成型慢

Cinco, clasificación de orugas

1、通用网络爬虫(搜索引擎使用,遵守robots协议)

	robots协议 :网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,

	通用网络爬虫需要遵守robots协议(君子协议)

	https://www.taobao.com/robots.txt

2、聚焦网络爬虫 :自己写的爬虫程序

Seis pasos de datos de rastreo del rastreador

1、确定需要爬取的URL地址

2、由请求模块向URL地址发出请求,并得到网站的响应

3、从响应内容中提取所需数据

	① 所需数据,保存

	② 页面中有其他需要继续跟进的URL地址,继续第2步去发请求,如此循环

Supongo que te gusta

Origin blog.csdn.net/weixin_38640052/article/details/107351809
Recomendado
Clasificación