Diretório de artigos

Tucao
uma
Análise de código

Tucao

Muitos sites de alta qualidade desapareceram antes. Deve ser que você esteja arrumando bastante. Antes que você preste atenção, vou salvar alguns mais silenciosamente~

uma

Vamos começar hoje

1. Configuração do ambiente**

Basta instalar um Python e um pycharm, se não, colocarei no final do artigo.

2. Uso do módulo

requests    # 数据请求
parsel   # 解析模块 (提取数据)

Se esses dois módulos não estiverem instalados, instale-os primeiro. Win+R, digite cmd e pressione Enter para abrir uma janela de prompt de comando. Digite pip install e adicione o nome do módulo. Por exemplo, pip install requestspressione Enter para instalar com êxito. Para obter detalhes tutoriais, veja o artigo Sticky, eu tenho uma introdução detalhada.

3. Como configurar o interpretador python no pycharm?

Selecione o arquivo >>> configuração >>> Projeto >>> interpretador python (interpretador python)
Clique na engrenagem, selecione adicionar
Adicionar caminho de instalação do python

4. Como o pycharm instala plugins?

Selecione o arquivo >>> configuração >>> Plugins
Clique em Marketplace e digite o nome do plug-in que deseja instalar. Por exemplo: entrada do plug-in de tradução tradução / entrada do plug-in chinês chinês
Selecione o plug-in correspondente e clique em instalar;
Depois que a instalação for bem-sucedida, a opção de reiniciar o pycharm aparecerá, clique em OK e reinicie para entrar em vigor;

5. Processo básico

Basicamente todos os rastreadores são esta etapa

1. Análise da fonte de dados

O que é rastrear um site? Que tipo de dados você deseja obter do site? Por exemplo, para rastrear imagens, analisar a partir de uma imagem, realizar análise de captura de pacotes por meio de ferramentas de desenvolvedor e comparar alguns parâmetros do endereço url da imagem que desejamos;

2. Etapas de implementação do código:

Envie uma solicitação, envie uma solicitação para o endereço de url obtido por análise;
URL de
solicitação , método de
solicitação, parâmetro de cabeçalho de solicitação >>> disfarce pode disfarçar o código python como um navegador (cliente) para enviar uma solicitação;
quais serão as consequências se não disfarçado >>> não Retorne os dados que deseja para você;
2. Obtenha os dados, faça com que o servidor de resposta retorne os dados de resposta;
3. Analise os dados, extraia o conteúdo dos dados que queremos, o endereço url da imagem e o título da imagem;
4. Salve os dados, salve os dados da imagem no local;

Análise de código

Comece mostrando o código, senão todo mundo quer me bater~

insira a descrição da imagem aqui

1. Importação do módulo

Primeiro, importe os módulos que precisamos usar, importe o módulo de solicitação de dados e o módulo de análise de dados, o módulo de importação não é usado e o estado de espera cinza.

import requests  
import parsel

2. Envie uma solicitação

headers solicitam parâmetros de cabeçalho, que podem ser copiados diretamente nas ferramentas do desenvolvedor, seguidos por cabeçalhos tipo de dados do dicionário, par chave-valor;
user-agent: user agent representa a identidade básica do navegador;
cookie: informações do usuário, para detectar se o usuário tem uma conta de login;

for page in range(2, 11):
    url = f'因为地址敏感我放在评论区置顶了/woman/{
      
      page}.html'
    headers = {
    
    
        'cookie': 't=f2cf055ce8713058cbfdbd1561c38e86; r=1281; Hm_lvt_86200d30c9967d7eda64933a74748bac=1645625923,1646892448; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1646894465',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)   #  <Response [200]> 返回响应对象 200状态码标识请求成功

3. Obtenha dados

Obtenha o conteúdo dos dados retornados pelo servidor e obtenha os dados de texto/dados de string do objeto de resposta.

O conteúdo dos dados retornados é diferente do que vimos nas ferramentas do desenvolvedor, o que significa que você é reconhecido pelo servidor como seu rastreador, portanto ele não retornou os dados para você.

print(response.text)

4. Analise os dados

O seletor css xpath re pode ser usado em três métodos de análise para selecionar o mais adequado;
seletor css: extrai o conteúdo dos dados de acordo com os atributos da tag;
para obter response.text, converta o tipo de dados em objeto seletor
attr() atributo selector.egeli_pic_li . egeli_pic_dl dd a img são tags de posicionamento, diga qual é a tag
img::attr(src) Obtém os dados do atributo src na tag img
getall() Obtém todos os dados de conteúdo da tag Retorna o tipo de dados da lista

 selector = parsel.Selector(response.text)
 src = selector.css('.egeli_pic_li .egeli_pic_dl dd a img::attr(src)').getall()
 alt = selector.css('.egeli_pic_li .egeli_pic_dl dd a img::attr(alt)').getall()
 for img_url, title in zip(src, alt):
     img_url = img_url.replace('edpic_360_360', 'edpic_source')

5. Salvar dados

img_content = requests.get(url=img_url, headers=headers).content  # 获取二进制数据内容
with open('img\\' + title + '.jpg', mode='wb') as f:
    f.write(img_content)
print(img_url, title)

Bem, o código termina aqui, e eu vou te mostrar os resultados da coleção no texto sem saber, todo mundo prova com cuidado~

Irmãos, sejam diligentes na codificação e nunca usem a diligência tática para encobrir a preguiça estratégica.

Lembre-se de curtir e favoritar~