la primera:
1. urllib realiza la adquisición de la página de Jingdong
2. Intenta rastrear la página de inicio de
Zhihu 3. Extrae los datos dinámicos json de la red lagou para obtener el nombre del trabajo, el nombre de la empresa, el bienestar y el salario
4. Solicitudes de inicio de sesión simuladas de Douban. y obtén los datos de la página de inicio en formato html
5. No es necesario: intenta capturar un pequeño video tiktok (sencillo)
segundo:
'' '
Nombre de dominio:
https://www.baidu.com/word?input=Altman
http: Protocolo de transferencia de hipertexto es un método para publicar y recibir páginas HTML.
Número de puerto predeterminado: 80
url Localizador uniforme de recursos
https: http + ssl (capa de conexión segura) 443
Nombre de dominio: puerto IP del servidor
ruta => ruta y parámetros de la ruta
GET POST (envío de datos) HEAD (solo obtenga el encabezado) eliminar
Fuente de Douban: http://pypi.douban.com/simple/
obtener la URL de paginación de la solicitud en el
parámetro de datos de paginación de la publicación
Proxy gratuito: https://ip.ihuan.me/
Asignación: las solicitudes obtienen la página de Baidu Tieba y la guardan localmente
Tarea 2: Obtener Retract Python Información del trabajo: Nombre del trabajo Salario Nombre de la empresa
'' '
tercero:
Descargue la imagen y guárdela en el https://www.1000tuku.com/tupiangushi/ local
Observaciones: Carpeta de tres niveles para almacenar imágenes 1. Carpeta de imágenes 2. Historia de la imagen 3. El título de la serie de imágenes 4. El la imagen
usa xpath
/ html / body / div [4] / ul / li [1] / a / img # La
extracción de la ruta relativa absoluta no pudo obtener una gran cantidad de datos que no queremos
Cuando use una ruta relativa para extraer datos no deseados -> agregue un nodo principal
urls = url[:-5] + '_' + str(page) + '.html'
response = requests.get(urls, headers=headers).content.decode('gbk')