Python- lograr proceso de rastreador Web de tres

Reptil tres procesos para alcanzar Pyhton

1. Obtener la página

página web de la adquisición de tecnologías básicas: solicitud, urllib y selenio.
página web de la adquisición de tecnologías avanzadas: arrastre roscado multi-multi-proceso, el aterrizaje del arrastre, rompiendo la prohibición y servidores IP rastreo.

2. Analizar la página

La base de páginas de análisis técnico: Re expresiones regulares, y BeautifulSoup lxml.
tecnología web analítica avanzada: resolver los chinos no reconocibles.

3. Almacenamiento de datos

La tecnología subyacente para almacenar datos: archivo txt y se almacenan en un archivo csv.
La avanzada tecnología para almacenar datos: base de datos MySQL y se almacena en la base de datos MongoDB.

Publicado 33 artículos originales · ganado elogios 1 · vistas 2304

Supongo que te gusta

Origin blog.csdn.net/qq_40805620/article/details/95492651
Recomendado
Clasificación