Explication de base des robots Python : classification des robots (1)

reptile commun

Le robot d'exploration Web général est une partie importante du système d'exploration des moteurs de recherche (Baidu, Google, Sogou, etc.). L'objectif principal est de télécharger des pages Web sur Internet sur l'ordinateur local pour former une sauvegarde miroir du contenu Internet. Fournir un support de recherche pour les moteurs de recherche.
Insérer la description de l'image ici

premier pas

Les moteurs de recherche explorent les données de milliers de sites Web.

Étape 2

Le moteur de recherche explore les pages Web via des robots d'exploration et stocke les données dans la base de données des pages d'origine (c'est-à-dire la bibliothèque de documents). Les données de la page sont exactement les mêmes que le HTML obtenu par le navigateur de l'utilisateur.

troisième étape

Le moteur de recherche effectue diverses étapes de prétraitement sur les pages analysées par le robot : segmentation des mots chinois, élimination du bruit et traitement de l'index. . .
Une fois que le moteur de recherche a organisé et traité les informations, il fournit aux utilisateurs des services de récupération de mots clés et affiche les informations pertinentes aux utilisateurs. Ils seront classés lors de leur affichage.

Limites du moteur de recherche

  • Les moteurs de recherche explorent l’intégralité de la page Web, et non des informations spécifiques et détaillées.
  • Les moteurs de recherche ne peuvent pas fournir de résultats de recherche spécifiques aux besoins d'un client.

Concentrez-vous sur les robots d'exploration

Pour ces situations de robots d’exploration généraux, la technologie des robots d’exploration ciblée est largement utilisée. Un robot d'exploration ciblé est un programme de robot d'exploration Web "orienté vers des besoins spécifiques". La différence entre celui-ci et un robot d'exploration général des moteurs de recherche est que le robot d'exploration ciblé traitera et filtrera le contenu lors de l'exploration des pages Web et essaiera de garantir que seule l'exploration est pertinentes aux besoins.données de la page Web.

RobotsProtocole

Robots est un accord entre le site Web et le robot d'exploration. Il utilise un texte au format txt simple et direct pour indiquer au robot d'exploration correspondant les autorisations autorisées. En d'autres termes, robots.txt est le premier fichier à afficher lors de la visite du site Web dans la recherche. moteur. Lorsqu'un robot de recherche visite un site, il vérifiera d'abord si le fichier robots.txt existe dans le répertoire racine du site. S'il existe, le robot de recherche déterminera l'étendue de l'accès en fonction du contenu du fichier ; si le fichier existe n'existe pas, tous les robots de recherche pourront accéder à toutes les pages du site Web qui ne sont pas protégées par mot de passe. --Encyclopédie Baidu

Le protocole Robots est également appelé protocole robot, protocole robot, etc., et son nom complet est "Robots Exclusion Protocol". Le site Web utilise le protocole Robots pour indiquer aux moteurs de recherche quelles pages peuvent être explorées et quelles pages ne peuvent pas être explorées, par exemple :

Taobao : https://www.taobao.com/robots.txt
Baidu : https://www.baidu.com/robots.txt

Demande et réponse

La communication réseau se compose de deux parties : le message de demande du client et le message de réponse du serveur.
Insérer la description de l'image ici

Le processus par lequel le navigateur envoie une requête HTTP :
Insérer la description de l'image ici

  1. Lorsque nous entrons l'URL https://www.baidu.com dans le navigateur , le navigateur envoie une demande de requête pour
    obtenir le fichier html de https://www.baidu.com , et le serveur renvoie l'objet fichier de réponse à le navigateur.
  2. Le navigateur analyse le code HTML de la réponse et constate qu'il fait référence à de nombreux autres fichiers, tels que des fichiers Images, des fichiers CSS et des fichiers JS. Le navigateur renverra automatiquement la demande pour obtenir des images, des fichiers CSS ou des fichiers JS.
  3. Lorsque tous les fichiers sont téléchargés avec succès, la page Web s'affichera entièrement selon la structure de syntaxe HTML.

En fait, nous explorons les données en apprenant la technologie des robots d'exploration, qui consiste également à demander des données au serveur et à obtenir les données de réponse du serveur.

enfin

Veuillez faire attention~ [J'aime/Collecter/Retweet]~~ Pour plus de tutoriels Python/contenu hardcore/partage technique, vous pouvez m'envoyer un message privé ! Des informations complètes et massives vous attendent. Dans le même temps, il existe de temps en temps des cours ouverts et gratuits en direct.
Le contenu est adapté aux novices, avec des explications approfondies plus complètes, des cas pratiques riches et des mises à jour continues ~
Insérer la description de l'image ici

Guess you like

Origin blog.csdn.net/XM67_/article/details/132249935