[Producido por Aiqi] - [Computadora Nankai] Evaluación del período de otoño de "Rastreador web y extracción de información" 19

[Descargo de responsabilidad] Si hay alguna infracción, informe el contenido de este blog. Se eliminará el uso no comercial. Si hay una infracción, infórmeme y lo eliminaré

Si la respuesta no es oportuna o no comprende,   agrégueme WeChat island68 QQ823173334 Si puede, indíquelo en CSDN   

Espero comunicarme contigo a través de la plataforma de CSDN

Mantener para uso propio

"Rastreadores y extracción de información" a fines del otoño de 19

1. Si muchos rastreadores rastrean un sitio web a toda velocidad al mismo tiempo, en realidad es un () ataque al sitio web
XSS | DOS | DDOS | dominio cruzado

2. ¿Cuál de las siguientes etiquetas HTML representa una sección o sección ()
<div> | <body> | <head> | <footer>

3. La operación de usar UI Automator para obtener el contenido de texto que se muestra en la pantalla es usar el comando después de obtener el control correspondiente ()
contenido | texto | título | cuerpo

4. El archivo CSV de la operación Python puede operar la celda por () contenedor
lista | tupla | diccionario | colección

5. Objeto = (1, 2, 3, 4, 5) en Python, entonces Objcet es ()
lista | tupla | diccionario | colección

6. Los códigos de estado comunes HTTP indican que el servidor está ocupado ()
500 | 503 | 403 | 404

7. La operación para abrir WeChat usando UI Automator es obtener el icono correspondiente y usar el comando ()
touch | click | push | hover

8. Object = {'obj_1': '1', 'obj_2': '2'} en Python, luego Objcet.get ('boj_1', '3') es ()
1 | 2 | 3 | Sin salida

9. El uso de la siguiente tecnología () puede lograr una carga asincrónica
HTML | AJAX | CSS | HTTP

10. El contenido en qué archivo en el directorio raíz del sitio web le dirá al rastreador qué datos se pueden rastrear y qué datos no se pueden rastrear ().
robot.txt | robot.html | robots.txt | robots.html

11. ¿Qué opción en las herramientas de desarrollador de Chrome puede encontrar cookies
Elementos | Fuentes | Red | Rendimiento

12. ¿Cuál de los siguientes comandos es el comando de descompresión en Linux ()
curl | tar -zxvf | mkdir | cp

13. La forma de almacenamiento de datos en MongoDB es similar a ()
list | tuple | dictionary | collection

14. ¿Cuál de las siguientes etiquetas HTML representa el elemento de lista de definición ()
<ul> | <li> | <tr> | <td>

15. La biblioteca de terceros en Python que se puede usar para convertir texto en imágenes en texto es
lxml | peticiones | beautifulsoup | pytesseract

16. ¿Cuál de los siguientes no es un tipo de solicitud HTTP ()
GET | POST | PUT | SET

17. ¿Cuál de las siguientes etiquetas HTML representa las celdas estándar en una tabla HTML ()
<ul> | <li> | <tr> | <td>

18. Después de crear el rastreador, puede usar el comando "scrapy () <nombre de rastreo>" para ejecutar el rastreador.
startup | starwar | drawl | rastreo

19. Encabezados de parámetros = (), agregue el encabezado de la solicitud a la solicitud Scrapy, para que la solicitud del rastreador parezca que se inició desde el navegador.
CABEZAL | CABEZALES | CABEZA | CUERPO

20. ¿Cuál de los siguientes comandos es una herramienta de transferencia de archivos que funciona en la línea de comandos utilizando la sintaxis de URL ()
curl | tar -zxvf | mkdir | cp

21. La declaración para obtener la biblioteca llamada db en MongoDB es ()
client.db | client ('db') | client ['db'] | client {'db'}

22. ¿Cuál de los siguientes métodos pertenece al método de Python para escribir archivos CSV ()
writeheaders | writeheader | writerrows | writerow

23. ¿Cuál es el papel del middleware del descargador?
Reemplazar IP del agente | Reemplazar cookies | Reemplazar agente de usuario | Reintento automático

24. Si el rastreador rastrea un sitio web comercial, y el sitio web de destino utiliza un mecanismo anti-reptil, entonces romper a la fuerza el mecanismo anti-reptil puede constituir () el
delito de invadir ilegalmente un sistema informático | delito de obtener ilegalmente datos del sistema de información informática | delito de obtener ilegalmente datos informáticos | Delito de adquirir ilegalmente el sistema

25. El contenedor Python () tiene una
lista de derivaciones | tupla | diccionario | colección

26. Los rastreadores web comunes suelen funcionar en modo serie
. Correcto | incorrecto

27. Generalmente, los sitios web que necesitan iniciar sesión pueden iniciar sesión a través de solicitudes GET.
Bien | mal

28. La lista de los disponibles middleware agente proxy debe estar escrito en el interior settings.py
del | equivocada

29. El uso del método get request en las solicitudes es request.get ('URL', data = data)
correcto | incorrecto

30. Toda carga asincrónica enviará una solicitud al fondo
correcto | incorrecto

31. Para ejecutar Redis en MacOS, puede ejecutar el archivo redis-server en la carpeta src debajo de la carpeta descomprimida para iniciar el servicio redis
src / redis-server
correcto | incorrecto

32. Los archivos del rastreador no se pueden ejecutar y depurar desde Pycharm, y solo se pueden ejecutar desde la línea de comandos.
Bien | mal

33. La activación del middleware del rastreador requiere que se escriba otro archivo
. Correcto | Incorrecto

34. ya creado rastreador Scrapy * .py archivos se pueden ejecutar directamente por Python
en el | equivocada

35. En el entorno de Linux, en el entorno virtual de Python creado por Virtualenv, ejecute el comando pip para instalar la biblioteca de terceros sin utilizar el comando sudo.
Bien | mal

36. En los archivos de biblioteca dependientes de Scrapy, las capas inferiores de pywin32 y Twisted se desarrollan en base a ##.


37. reptil middleware número de secuencia es scrapy.spidermiddlewares.urllength.UrlLengthMiddleware ## <br>


38. Ejecute el comando Redis en Windows como ## redis.windows.conf


Si tiene que utilizar cuando se accede a la base de datos fuera de la red, es necesario modificar la instalación perfil MongoDB MongoDB 39. ## <br>


40. Método módulo de biblioteca lxml etree.tostring etree () es qué hacer con <br>


41. Describa el proceso de búsqueda en profundidad en el rastreador


 

96 artículos originales publicados · elogiados 7 · 20,000+ vistas

Supongo que te gusta

Origin blog.csdn.net/island33/article/details/105114097
Recomendado
Clasificación