Episodio 01 de selección del rastreador de Python (primer rastreador de encuentro)
portal del directorio de aprendizaje de Python
Directorio de artículos
Descripción general de los rastreadores web
1. Definición
-
Arañas web, robots web, programas que capturan datos web.
-
De hecho, se trata de utilizar programas de Python para imitar a las personas que hacen clic en el navegador y visitan el sitio web, y cuanto más realista sea la imitación, mejor.
En segundo lugar, el propósito de rastrear datos
- Obtenga grandes cantidades de datos para el análisis de datos.
- Datos de prueba de proyectos de la empresa, datos necesarios para el negocio de la empresa
3. Cómo obtienen los datos las empresas
-
Datos propios de la empresa
-
Compra desde una plataforma de datos de terceros (Data Hall, Guiyang Big Data Exchange)
-
Datos de rastreo del rastreador
Cuarto, las ventajas de Python como rastreador.
1、Python :请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架
2、PHP :对多线程、异步支持不太好
3、JAVA:代码笨重,代码量大
4、C/C++:虽然效率高,但是代码成型慢
Cinco, clasificación de orugas
1、通用网络爬虫(搜索引擎使用,遵守robots协议)
robots协议 :网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,
通用网络爬虫需要遵守robots协议(君子协议)
https://www.taobao.com/robots.txt
2、聚焦网络爬虫 :自己写的爬虫程序
Seis pasos de datos de rastreo del rastreador
1、确定需要爬取的URL地址
2、由请求模块向URL地址发出请求,并得到网站的响应
3、从响应内容中提取所需数据
① 所需数据,保存
② 页面中有其他需要继续跟进的URL地址,继续第2步去发请求,如此循环