"파이썬 웹 크롤러 관련 기본 개념을"03.Python 첫번째 폭탄을 학습 크롤러 웹 크롤러

"파이썬 웹 크롤러 관련 기본 개념을"03.Python 첫번째 폭탄을 학습 크롤러 웹 크롤러

소개 파충류

도입

과정을 가르치기 전에, 많은 학생들이 저에게이 같은 질문을했다 : 파충류 내용 왜, 파충류 학습이 우리의 미래 개발에 대한 이러한 혜택을 가져올 수 있습니까? 사실, 우리의 미래 개발을위한 파충류와 혜택을 공부하는 이유가 가져다 고용 또는이 실제 응용 프로그램에서인지, 명백하다.

우리는 현재의 시간을 우리는 데이터를 분석하는 빅 데이터의 시대에, 빅 데이터의 시대에 살고있는 것을 모두 알고, 우리는 먼저 데이터 소스가 있어야하며, 파충류를 배우고, 우리가 더 많은 데이터 소스를 얻을 수 및 데이터 소스 그것은 우리의 목적에 의해 수집 할 수 있습니다.

Youku는 화성 정보국 (CIA) 웹 크롤러가 데이터 및 완제품의 분석을 기반으로 출시했다. 있는 프로그램 주제의 각 단계는 관련 인기 대화 형 플랫폼 관련 데이터를 크롤링하고 데이터 분석에 의해 얻어진 데이터에 크롤 링합니다. 역방향 앞으로 사용자의 실시간보기 비디오 및 기타 행동 데이터는 나중에 쓰기 프로그램과 프로그램 편집 프로그램을하는 데 도움이 청중의 관심과 취미 점의 포인트를 계산하기 위해 추정 할 수있을 때 다른 한편으로는, Youku에 따라.

권장되는 응용 프로그램 클래스와 오늘의 뉴스 헤드 라인은 내부 데이터 뉴스 뉴스 데이터는 사용자의 휴대 전화에 밀려 사용자에게 관심의 뉴스 주제를 적절한 처리에 의해 다음, 크롤링 및 컴퓨팅 크롤러가 다양한 뉴스 사이트에서 실시된다 에.

고용의 관점에서, 현재의 엔지니어 속하는 일반적으로 더 깊은이 기술을 마스터로 인력과 급여의 파충류 부족, 고용, 그것은 매우 유용합니다. 어떤 사람들은 취업 또는 변경 작업에 대한 파충류를 배울 수 있습니다. 이러한 관점에서, 파충류 엔지니어는 하나 개의 좋은 선택입니다. 빅 데이터 시대의 도래와 함께, 응용 프로그램 크롤러 기술 개발을위한 더 많은 공간이있을 것이다 미래에 더 광범위한 될 것입니다.

오늘 소개

  • 파충류 프로필
  • 파충류 분류
  • 로봇 프로토콜
  • 안티 등반 메커니즘
  • 안티 - 안티 등반 메커니즘

세부 오늘

  • 파충류는 무엇인가

    파충류는 인터넷 브라우저를 프로그래밍하여 시뮬레이션 한 다음 인터넷에서 프로세스 이동 잡아 데이터를하게된다.

  • 언어 파충류 구현 될 수있는 것

    1.php : 파충류가 달성 될 수있다. PHP는 (물론, 자신의 의미를 불고 자체로 알려져있다)는 세계에서 가장 아름다운 언어로 알려져 있지만 PHP를 지원 멀티 스레드 및 멀티 프로세스 측면은 크롤러를 달성 잘.

    2.java : 파충류가 달성 될 수있다. 자바는 매우 좋은 처리 및 파충류를 달성 할 수있는, 파이썬과 속도를 유지하는 유일한 방법이며, 파이썬은 번호를 하나의 경쟁이다. 그러나 코드는 더 부풀어 크롤러 자바 구현, 큰 재건 비용입니다.

    3.C, C ++ : 파충류가 달성 될 수있다. 그러나 파충류 달성이 방법은 순전히 어떤 사람 (거물) 기능의 표현이다,하지 현명하고 합리적인 선택이 될 것입니다.

    4.python : 파충류가 달성 될 수있다. 파이썬 구현 및 모듈의 광범위한 파충류 문법 간단하고 우아한 코드 지원을 처리, 저렴한 비용으로 학습, 매우 강력한 프레임 워크 (scrapy 등), 형언 할 수없는 좋은와! 그러나 더! 없다

  • 파충류의 분류

    1. 통용 爬? :

    일반 크롤러는 "잡아 시스템"에 검색 엔진 (바이두, 구글, 야후 등)의 중요한 부분입니다. 인터넷에서 웹 페이지의 주요 목적은 인터넷 콘텐츠의 형태를 미러링, 로컬에 다운로드됩니다. 인터넷의 모든 페이지가 다운로드 한 다음 관련 페이지 취급하고 백업 형태 (추출 키워드, 광고 제거) 로컬 서버를 넣고, 마지막으로 사용자의 검색 인터페이스를 제공하며, 간단하게 가능한 한 많이, 즉, 넣어.

    • 어떻게 검색 엔진은 인터넷에서 사이트 데이터를 크롤링?
      • 이니셔티브는 검색 엔진 회사에 자사의 포털 웹 사이트의 URL을 제공하는
      • 엔진 회사 및 DNS 서비스 제공 업체를 검색, 사이트 URL을 인수
      • 링크 잘 알려진 웹 사이트에 정박 포털 이니셔티브

    2. 집중 러 : 크롤링에 집중 러는 특정의 요구에 따라 네트워크 데이터에 지정된다. 예를 들면 : 대신 모든 데이터 값을 전체 페이지를 얻는, 영화 평론가의 이름과 물냉이를 가져옵니다.

  • robots.txt에 프로토콜

    - 포털 페이지를 지정된 데이터를 크롤링 크롤러를 원하지 않는 경우에, 당신은 프로토콜 데이터 크롤러 쓰기에 robots.txt 파일 크롤링에 의해 제한 될 수 있습니다. 작성된 프로토콜 형식 로봇은 Taobao의 로봇 (www.taobao.com/robots.txt가 액세스 할 수) 관찰 할 수있다. 그러나이 계약은 구두 계약에 해당하고, 관련 기술을 사용하지 않고 필수 제어, 그래서 계약이 안티 - 안티 신사 악당되지 않습니다. 그러나 우리는 크롤러 로봇이 첫 번째 계약을 무시할 수있는 학습 단계 파충류로 작성했습니다.

  • 안티 파충류

    - 적절한 정책과 사이트 데이터를 크롤링 크롤러를 방지하기위한 기술적 수단을 통해 포털.

  • Fanfan 파충류

    - 적절한 전략 및 기술, 균열 방지 수단을 통해 포털 파충류 크롤러 그래서 대응하는 데이터를 크롤링.

추천

출처www.cnblogs.com/bky20061005/p/12172309.html