Introdução às ferramentas básicas do crawler em python

1. Apresente o que é um rastreador

Rastreador da Web: Um programa que captura automaticamente as informações da Internet de acordo com certas regras.

Em termos leigos:Um programa ou (ferramenta, método) que simula o cliente enviando uma solicitação ao servidor e obtendo dados em lotes

Em segundo lugar, a classificação dos répteis

1 passe de réptil

O rastreador geral da web é uma parte importante do sistema de rastreamento do mecanismo de pesquisa (Baidu, Google, Sogou, etc.). O objetivo principal
é baixar as páginas da Internet para o local, formando um backup espelhado do conteúdo da Internet. Fornecer suporte de pesquisa para mecanismos de pesquisa.

2 Foco em répteis

Para essas situações de rastreamento de uso geral, técnicas de rastreamento focadas são amplamente usadas. O rastreador Focused é um tipo de
programa de rastreador da Web "orientado para as necessidades de tópicos específicos". apenas o rastreamento é relevante para as necessidades de dados da página da web.

Três ferramentas de desenvolvedor do Chrome

As Ferramentas do desenvolvedor do Chrome são um conjunto de ferramentas de desenvolvimento e depuração da Web incorporadas ao Google Chrome que podem ser usadas para iterar, depurar e analisar sites. Como muitos kernels de navegadores domésticos são baseados no kernel do Chrome, os navegadores domésticos também têm essa função. Por exemplo: navegador UC, navegador QQ, navegador 360, etc.

1 Painel de elementos (Elementos)

Através do painel Element, podemos ver a tag onde queremos pegar o conteúdo renderizado da página, qual atributo CSS usar
(por exemplo: class="middle") e assim por diante. Por exemplo, se eu quiser capturar o título dinâmico na página inicial do My Zhihu, clique com o botão direito do mouse na página onde ele está localizado e selecione "Inspecionar" para entrar no painel de elementos das Ferramentas do desenvolvedor do Chrome.

2 Painel do console (Console)

O painel do console (Console) é uma janela separada para exibir informações de objetos JS e DOM.

3 Painel de recursos (Fonte)

Na página do painel de recursos (Fonte), você pode visualizar todos os arquivos de origem da página da web atual.

4 Painel de rede (Rede)

O painel Rede registra informações sobre todas as operações de rede na página, incluindo dados demorados detalhados, solicitação HTTP e cabeçalhos de resposta e cookies e muito mais. Isso é o que costumamos chamar de captura de pacotes.
###1 Barra de ferramentas
Parar de gravar log de rede
Por padrão, enquanto as ferramentas do desenvolvedor estiverem ativadas, todas as solicitações de rede serão registradas. Claro, os registros são exibidos no painel Rede
. Vermelho significa ligado, cinza significa desligado.
Claro
Limpe todos os dados, cada reanálise precisa limpar os dados anteriores.
Filtro
filtro de pacotes. Vermelho significa ligado, azul significa desligado.
Geralmente é usado para filtrar algumas solicitações HTTP, como filtrar solicitações assíncronas iniciadas usando Ajax, imagens, vídeos, etc.
Filtrar caixa de pesquisa
De acordo com a filtragem de endereço, como baidu.com, apenas os pacotes de dados contendo baidu.com no endereço do pacote de dados serão filtrados.
Invertido
Na caixa de pesquisa Filtrar, a filtragem reversa, como baidu.com, filtrará pacotes cujo endereço não contenha baidu.com.
Ocultar URLs de dados
É usado para ocultar dataurl, então o que é dataurl? O atributo src tradicional da tag img usual especifica um recurso de um servidor remoto, e o navegador precisa enviar uma solicitação pull de recurso ao servidor para cada recurso externo. A tecnologia de URL de dados é que os dados da imagem são incorporados na página no formato de string base64 e integrados ao HTML.
Bloqueou cookies
Mostrar apenas solicitações com cookies de resposta bloqueados, esta opção não deve ser marcada.
Solicitações bloqueadas
Mostrar apenas solicitações bloqueadas, esta opção não deve ser marcada.
solicitações de terceiros
Mostrar apenas solicitações cuja origem seja diferente da origem da página, esta opção não deve ser marcada.
O painel maior é chamado Tabela de solicitações, e essa tabela lista todas as solicitações HTTP recuperadas. Por padrão, a tabela é classificada cronologicamente, com os recursos mais antigos no topo. Clicar no nome do recurso exibe mais informações.

2 Parâmetros da tabela de solicitações:

todos: Todos os dados solicitados (imagem, vídeo, áudio, código js, ​​código css*)
XHR: A abreviação de XMLHttpRequest, que é o núcleo da tecnologia ajax, um conteúdo que costuma ser analisado após o carregamento dinâmico
CSS: arquivo de estilo css
js: arquivo JavaScript, que é uma página frequentemente analisada pela descriptografia js
imagem: Arquivos de imagens de imagens
Fonte: arquivo de fonte (fonte anti-picking)
DOC: Documento, conteúdo do documento
WS: WebSocket, comunicação de dados de soquete no lado da web, geralmente usado para alguns dados atualizados em tempo real
Manifesto: exibe recursos armazenados em cache por meio do manifesto. A inclusão de muitas informações, como o arquivo da biblioteca js, exibirá o endereço, tamanho e tipo do arquivo;

3 Outras barras de ferramentas

Procurar
Na caixa de pesquisa, desde que o conteúdo que apareceu em ALL, pode ser pesquisado diretamente. Comumente usado e recuperação de dados e descriptografia JS
Preservar registro
Manter um registro. Ao analisar o conteúdo que salta em várias páginas, deve ser marcado, caso contrário, quando ocorrer um novo salto na página, todos os dados históricos serão apagados. Para manter o log, ele deve ser marcado para ser um rastreador
Desativar cache
Limpe o cache de JavaScript, arquivos css e obtenha os mais recentes.

5 Detalhes do pedido:

1 cabeçalho de solicitação

Cabeçalhos: São os headers que exibem a requisição HTTP, através dele podemos ver o método da requisição e os parâmetros da requisição que ela carrega.
Url de solicitação geral
: a URL da solicitação real
Método de solicitação: o método de solicitação
Código de status: código de status, 200 se for bem-sucedido

2 cabeçalhos de resposta

Alguns conjuntos de dados quando o servidor retorna, como os últimos dados de cookies atualizados pelo servidor, são modificados aqui

3 Cabeçalhos de Pedidos

O corpo da solicitação, o motivo pelo qual os dados não podem ser solicitados geralmente está aqui. Anti-captura também são os dados no corpo da solicitação anti-captura
Aceitar: O formato de dados recebido pelo servidor (geralmente ignorado)
Aceitar-codificação: A codificação recebida pelo servidor (geralmente ignorada)
Aceitar-Idioma: O idioma recebido pelo servidor (geralmente ignorado)
Conexão: mantenha-se conectado (geralmente ignorado)
Biscoitos: as informações de cookies são informações de identidade e os recursos VIP de rastreamento precisam conter informações de identidade
Hospedar: o endereço do host solicitado
Agente de usuário: Agente de identidade do usuário, o servidor julga as informações aproximadas do usuário com base nisso
Sec-xxx-xxx: Outras informações, podem ser inúteis, podem ser contra-capturas. Análise específica da situação específica*

4 Visualização

A visualização é uma visualização do resultado da solicitação. Geralmente é usado para visualizar as imagens solicitadas e é mais poderoso para capturar imagens.

5 resposta

A resposta é o resultado retornado pela solicitação. O conteúdo geral é o código-fonte de todo o site. Se a solicitação for assíncrona, o
conteúdo do resultado retornado geralmente será dados de texto Json.
Esses dados podem não corresponder à página exibida pelo navegador, porque o navegador carrega dinamicamente

6 Iniciador

pilha de chamada de origem do pedido

7 Cronometragem

Cronograma de solicitação e resposta

おすすめ

転載: blog.csdn.net/m0_74459049/article/details/130189645