Reptil tres procesos para alcanzar Pyhton
1. Obtener la página
página web de la adquisición de tecnologías básicas: solicitud, urllib y selenio.
página web de la adquisición de tecnologías avanzadas: arrastre roscado multi-multi-proceso, el aterrizaje del arrastre, rompiendo la prohibición y servidores IP rastreo.
2. Analizar la página
La base de páginas de análisis técnico: Re expresiones regulares, y BeautifulSoup lxml.
tecnología web analítica avanzada: resolver los chinos no reconocibles.
3. Almacenamiento de datos
La tecnología subyacente para almacenar datos: archivo txt y se almacenan en un archivo csv.
La avanzada tecnología para almacenar datos: base de datos MySQL y se almacena en la base de datos MongoDB.