Classification des robots d'exploration Web

Du point de vue de la compréhension des robots d'exploration, les systèmes d'exploration diffèrent à bien des égards en fonction des différentes applications spécifiques. En général, IPIDEA résume les systèmes d'exploration dans les trois types suivants.

Les robots d'exploration verticaux se concentrent sur un contenu spécifique ou sur des pages Web appartenant à un secteur spécifique. Par exemple, pour les sites Web consacrés à la santé, il vous suffit de rechercher le contenu des pages relatives à la santé sur les pages Internet, et le contenu d'autres secteurs n'est pas pris en compte. L'une des principales caractéristiques et difficultés des robots d'exploration verticaux est de savoir comment identifier si le contenu Web appartient à un secteur ou à un sujet spécifique. Du point de vue de l’économie des ressources système, il est impossible de filtrer toutes les pages Internet après le téléchargement. Cela entraînera un gaspillage excessif de ressources. Il est souvent nécessaire que les robots d'exploration identifient dynamiquement si une URL est liée au sujet lors de la phase d'exploration, et essaient de ne pas le faire Pour explorer les pages non pertinentes, afin d'atteindre l'objectif d'économiser des ressources. Les sites Web de recherche verticale ou les sites Web de l'industrie verticale ont souvent besoin de ce type de robot d'exploration.
Classification des robots d'exploration Web
Les robots d'exploration par lots ont une plage et une cible d'analyse relativement claires. Lorsque le robot d'exploration atteint la cible définie, il arrête le processus d'analyse. Quant aux objectifs spécifiques, cela peut être différent, peut-être est-il configuré pour explorer un certain nombre de pages Web, peut-être pour définir le temps d'exploration, etc., qui sont différents.

Les robots d'exploration incrémentiels sont différents des robots d'exploration par lots en ce sens qu'ils maintiennent l'exploration continue. Les pages Web explorées doivent être mises à jour régulièrement, car les pages Web Internet changent constamment. Les nouvelles pages Web, les pages Web supprimées ou les modifications du contenu des pages Web sont toutes Les robots d'exploration courants et incrémentiels doivent refléter ce changement en temps opportun, donc dans le processus d'exploration continue, soit l'exploration de nouvelles pages Web ou la mise à jour de pages Web existantes. Les robots des moteurs de recherche commerciaux courants sont essentiellement de ce type.

Je suppose que tu aimes

Origine blog.51cto.com/14910755/2534739
conseillé
Classement