[Pergunta] Você já fez um rastreador da web? como você faz isso Como você decide o que escalar e o que não escalar?

Quando entrevistei uma empresa iniciante, o entrevistador me fez essa pergunta e fiquei um pouco surpreso.

Pensei comigo mesmo: "O que ele quer? Você quer que eu seja um réptil? É muito arriscado ser um réptil agora."

…

Eu: "Sim, fiz um trabalho semelhante, mas o rastreamento são todos dados públicos e não há problema legal"

Entrevistador: “Então como você sabe que os dados que você rastreou não são legalmente arriscados?”

Eu: "Uh...Porque consultamos a equipe jurídica da empresa e fizemos pesquisas relevantes antes de iniciarmos este projeto, e o código passou por uma auditoria de código de terceiros, então não há problema de dados"

…

O entrevistador ficou em silêncio depois disso.

Para ser sincero, eu não sabia o propósito de fazer essa pergunta na época (talvez eu quisesse criar uma solução ou quisesse investigar como resolvi esse problema), mas acho que ele provavelmente não esperava que eu fizesse isso. ser tão redondo passado. Depois de tantos anos, acho que deveria ser capaz de responder novamente a essa pergunta agora.

Primeiro, o que eu faço?

Agora, quando se trata de fazer um web crawler, penso imediatamente em fazê-lo em Python, afinal, a biblioteca Python para esse aspecto é muito fácil de usar. Mas como me considero um "praticante de Java que não faz negócios corretamente", falarei brevemente sobre isso com base em Java.

O primeiro passo é definitivamente planejar o pool de IP para saída de proxy (big pit, você precisa cooperar com outras ferramentas para encontrar IP disponível continuamente) e, em seguida, o controle dinâmico de multi-threading (big pit, muito sensível para elaborar), Depois, há PhantomJS (HtmlUtil) + extração de estrutura de página sem navegador do Selenium (grande buraco, ajustes precisam ser feitos para lidar com a cena de renderização assíncrona da página) e, em seguida, os dados da página são analisados por Jsoup e, em seguida, limpeza de dados (grande pit, adaptação da estrutura de dados), armazenamento... Acho que isso deve ser capaz de atender às necessidades dos rastreadores básicos da web.

Portanto, o mais importante é: quais dados podem ser rastreados? Quais não podem ser escalados?

Para saber a resposta, você deve consultar as "lições aprendidas com o passado". Para encontrar o árbitro oficial, escolherei a Rede de Documentos de Julgamento da China ( https://wenshu.court.gov.cn/ ), desde que você registra uma conta, pode verificá-la gratuitamente.

Após extensa recolha e análise de dados, foram tiradas as seguintes conclusões:

Comportamento	Resumir
As ofensas de rastreamento da Web incluem	1. Rastreamento de dados de sites de outras pessoas para fins comerciais, como usá-los para fornecer serviços gratuitos de leitura de romances para seu próprio APP, quebrar o código de verificação do site da outra parte para obter dados para uso em seu próprio site, obter dados para fins lucrativos, etc. Todas estas são violações de direitos de autor e direitos de propriedade de dados; 2. Obtenção de dados por meios ilegais, tais como a utilização de tecnologia para quebrar o mecanismo anti-rastreamento de outros websites ou a obtenção de dados de interface de websites através de meios técnicos, tais como captura e descompilação de pacotes. Estes são atos de obtenção ilegal de dados do sistema de informação do computador; 3. A quantidade de dados rastreados é grande ou interfere seriamente nas funções de outros sites, como rastrear uma grande quantidade de informações pessoais ou rastrear muito tráfego para paralisar o site. Estes estão seriamente além do limite de uso razoável, e as responsabilidades legais correspondentes serão assumidas; 4. Fornecer programas ou ferramentas especialmente usadas para invadir ilegalmente sistemas de informação de computador, como fornecer programas rastreadores que contornem as medidas anti-rastreamento do site de destino , constitui um perigo para a segurança dos sistemas de informação informática 5. A não adoção de medidas de confidencialidade que conduzam à divulgação de segredos comerciais, como a extracção de dados comerciais ocultos em códigos de websites, constitui uma violação da protecção do segredo comercial;
Siga as regras	1. Se quiser rastrear, você pode rastrear informações completamente públicas, sem destruir ou contornar qualquer mecanismo anti-escalada; 2. Os dados rastreados são usados apenas para fins legítimos de pesquisa acadêmica, não para fins comerciais; 3. Não forneça o alvo ao rastrear O servidor traz muita carga e a frequência de rastreamento precisa ser limitada; 4. Cumpra o protocolo de robôs e respeite as regras de rastreamento do proprietário do site; 5. Use os dados rastreados razoavelmente e não exceda o escopo de uso;
absolutamente não	1. Uso não autorizado para fins comerciais; 2. Destruir ou contornar as medidas técnicas anti-crawler do site; 3. Rastrear dados confidenciais, como privacidade pessoal e segredos comerciais; 4. Fornecer programas ou ferramentas para invadir ou destruir sistemas de informação de computador; 5. O rastreamento frequente de dados traz carga pesada ao servidor; 6. A falha em tomar medidas de confidencialidade leva ao vazamento de dados;

Portanto, do ponto de vista técnico, devemos respeitar os seguintes 7 pontos:

Identifique e cumpra o protocolo dos robôs e defina razoavelmente a frequência de rastreamento, caminho, etc. de acordo com os requisitos dos objetos de rastreamento;
Não use métodos como quebra de códigos de verificação e logins simulados para contornar a tecnologia anti-escalada, que é um acesso ilegal a sistemas de informação de computadores;
Obter dados de interface sem descompilar software, monitorar o tráfego de dados de rede, etc., é aquisição ilegal de dados;
Não forneça ferramentas ou serviços específicos para crackear sistemas de informação informática anti-escalada e entrada ilegal;
Não rastreie resolutamente informações de privacidade pessoal, segredos comerciais, construção de defesa nacional, dados relacionados a assuntos nacionais e ciência e tecnologia de ponta;
Use tecnologias distribuídas, assíncronas e outras para controlar a frequência de rastreamento para evitar sobrecarregar o servidor de destino;
Pare imediatamente ao receber um aviso de que o site está proibido de rastrear;

Isso é basicamente tudo o que foi dito acima, e gostaria de lembrar a todos: não façam coisas que afetem os resultados da lei e coloquem em risco a segurança nacional . Recomenda-se não tocar levianamente nos negócios relacionados ao rastreador da web até que você tenha descoberto, para não causar um desastre. Se algo realmente acontecer, você ainda precisará consultar uma equipe jurídica profissional para aconselhamento e não pense nisso sozinho.

[Pergunta] Você já fez um rastreador da web? como você faz isso Como você decide o que escalar e o que não escalar?

Acho que você gosta