Cómo utilizar el rastreador de Python para monitorear automáticamente si Baidu incluye nombres de dominio

Cómo utilizar el rastreador de Python para monitorear automáticamente si Baidu incluye nombres de dominio


Cuando se lanzan algunos sitios nuevos, las empresas/personas con conocimientos de SEO tienden a preocuparse mucho por si Baidu ha incluido su sitio web (nombre de dominio), porque solo Baidu puede buscarlo y su sitio web realmente existe en este mundo. Internet (aquí hay una alusión; antes vi un dicho interesante en un libro: en la era de Internet, si no sabes si algo existe en el mundo, simplemente búscalo en Baidu. Si no puedes encontrarlo, Se puede suponer que no existe ).

Entonces, ¿cómo confirmar si Baidu indexa su sitio? Por supuesto, la forma más directa es buscar directamente el nombre del sitio web (generalmente el título de la página de inicio), pero en teoría, este método no es exacto porque es posible que se haya incluido, pero debido a problemas de peso, la clasificación es "Bajo, por lo que, en teoría, tengo que revisar todas las páginas de resultados de búsqueda para confirmar que no está incluido. La carga de trabajo da demasiado miedo. Debe haber una manera mejor".

Las personas que saben algo sobre SEO definitivamente conocerán otro comando: site:xxx.com, que puede enumerar todas las páginas que se han incluido en el sitio. Es preciso, pero la energía humana es limitada. Es una pérdida de tiempo ejecutar de vez en cuando Mira si está incluido. ¿Se puede hacer esto con una máquina?

Sí, y es muy simple. Escribí un pequeño rastreador en Python, que tomará automáticamente los últimos resultados de los comandos del sitio después de un tiempo y los enviará automáticamente a WeChat empresarial. Aquí se logra el propósito del monitoreo automático, lo cual es muy Conveniente. Inteligente, comparte el siguiente código de ejemplo:

Primero, debes instalar los módulos request y lxml.

pip install requests
pip install lxml

El siguiente es el código específico.

#通过抓取某个域名的site指令结果,判断是否已被百度收录代码
import json

import requests
from lxml import etree
import time
if __name__ == '__main__':
    while True:
        domain = 'xxx.com'
        url = 'https://www.baidu.com/s?ie=UTF-8&wd=site%3A'+domain
        headers = {
    
    
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
        }
        response = requests.get(url=url, headers=headers)
        dom = etree.HTML(response.text)
        #通过xpath解析页面结构以判断是否有收录链接
        resultList = dom.xpath('//div[contains(@class,"c-container")]')
        if len(resultList) > 0:
            msg = '百度已收录'+domain+',收录数量'+str(len(resultList))
        else:
            msg = '百度未收录'+domain
        print('抓取完毕!!!', msg, '\n')
        #将收录结果发送到企业微信
        qiWeiWebHook = 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=xxx'
        postHeaders = {
    
    
            'Content-Type': 'application/json'
        }
        msgData = {
    
    
            "msgtype": "text",
            "text": {
    
    
                "content": msg
            }
        }
        postResponse = requests.post(qiWeiWebHook, headers=postHeaders, data=json.dumps(msgData))
        print(postResponse.text)
        #每小时爬取一次
        time.sleep(3600)

Nota:
1) La variable qiWeiWebHook es el enlace del webhook en el robot de chat grupal interno de WeChat empresarial. Es muy útil para enviar automáticamente algunos datos de informes o advertencias en el trabajo. Si no necesita usar WeChat para enviar, puede comentar esta parte del código; 2
) El número incluido arriba es solo para una página. Si necesita el número completo incluido, debe pasar la página y resumirlo; el siguiente
es el efecto de la operación:
Insertar descripción de la imagen aquí
Además, he creado Un nuevo grupo de intercambio de tecnología de rastreadores. Si también está estudiando rastreadores, bienvenido a unirse al grupo para comunicarse.
Insertar descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/one_and_only4711/article/details/126155301
Recomendado
Clasificación