Introducción a Python Web Crawler: preguntas de práctica de proyectos avanzados "Escriba una recompensa privada, aprenda un paquete de regalo"

la primera:

1. urllib realiza la adquisición de la página de Jingdong
2. Intenta rastrear la página de inicio de
Zhihu 3. Extrae los datos dinámicos json de la red lagou para obtener el nombre del trabajo, el nombre de la empresa, el bienestar y el salario
4. Solicitudes de inicio de sesión simuladas de Douban. y obtén los datos de la página de inicio en formato html
5. No es necesario: intenta capturar un pequeño video tiktok (sencillo)

segundo:

'' '
Nombre de dominio:
    https://www.baidu.com/word?input=Altman

    http: Protocolo de transferencia de hipertexto es un método para publicar y recibir páginas HTML.
    Número de puerto predeterminado: 80
    url Localizador uniforme de recursos

    https: http + ssl (capa de conexión segura) 443

    Nombre de dominio: puerto IP del servidor

    ruta => ruta y parámetros de la ruta

GET POST (envío de datos) HEAD (solo obtenga el encabezado) eliminar


Fuente de Douban: http://pypi.douban.com/simple/
obtener la URL de paginación de la solicitud en el
parámetro de datos de paginación de la publicación

Proxy gratuito: https://ip.ihuan.me/

Asignación: las solicitudes obtienen la página de Baidu Tieba y la guardan localmente

Tarea 2: Obtener Retract Python Información del trabajo: Nombre del trabajo Salario Nombre de la empresa

'' '

tercero:

Descargue la imagen y guárdela en el https://www.1000tuku.com/tupiangushi/ local
    Observaciones: Carpeta de tres niveles para almacenar imágenes 1. Carpeta de imágenes 2. Historia de la imagen 3. El título de la serie de imágenes 4. El la imagen
    usa xpath


    / html / body / div [4] / ul / li [1] / a / img # La
    extracción de la ruta relativa absoluta no pudo obtener una gran cantidad de datos que no queremos

    Cuando use una ruta relativa para extraer datos no deseados -> agregue un nodo principal

urls = url[:-5] + '_' + str(page) + '.html'
     response = requests.get(urls, headers=headers).content.decode('gbk')

 

Supongo que te gusta

Origin blog.csdn.net/weixin_45293202/article/details/112523509
Recomendado
Clasificación