Python 크롤러에서 일반적으로 사용하는 라이브러리는 무엇입니까?

인터넷 크롤러 업계를 자주 여행하는 프로그래머에게 프로그램 자동화 및 효율성을 신속하게 실현하는 방법은 자체 기술이 침전된 결과이므로 Python 크롤러를 사용하려면 데이터베이스 지원이 필요합니까? 다음은 내가 자주 사용하는 라이브러리에 대한 몇 가지 통찰력입니다.
여기에 이미지 설명 삽입

요청 라이브러리:

1. urllib: urllib 라이브러리는 Python3와 함께 제공되는 라이브러리입니다(Python2에는 urllib와 urllib2가 있으며 Python3에서는 urllib로 통합되어 있습니다.) 이 라이브러리는 크롤러에서 가장 간단한 라이브러리입니다.

2. 요청: 요청은 타사 라이브러리에 속하며 urllib보다 훨씬 사용하기 쉽고 더 강력한 기능을 가지고 있으며 가장 일반적으로 사용되는 요청 라이브러리입니다.

3. Selenium: Selenium은 타사 라이브러리에 속하며 클릭, 풀다운, 드래그 등과 같은 브라우저 작업을 자동으로 완료하는 데 사용할 수 있는 자동화된 테스트 도구이며 일반적으로 복잡한 ajax 작업을 완료합니다.

파싱 ​​라이브러리:

1. lxml: 타사 라이브러리에 속하며 HTML 및 xml 구문 분석을 지원하고 XPath 구문 분석 방법을 지원하며 구문 분석 효율성이 매우 높습니다.

2. Beautiful Soup: 강력한 API와 사용하기 쉬운 타사 라이브러리.

3. pyquery: 타사 라이브러리에 속해 있으며 강력한 기능은 css 선택자에 있습니다.jQuery를 더 잘 알고 있다면 pyquery를 사용하는 것이 매우 편리할 것이므로 pyquery를 사용하는 것도 좋습니다.

저장소:

1. PyMySQL: 가장 일반적으로 사용되는 데이터베이스 중 하나인 PyMySQL은 크롤링 후 데이터를 저장하는 데에도 매우 적합하며 데이터베이스에서 테이블 생성, 추가, 삭제, 확인 및 수정 작업을 수행할 수 있습니다.

2. PyMongo: PyMongo는 MongoDB와 상호 작용하기 위한 라이브러리입니다.

3. redis-py: redis-py는 Redis와 상호작용하기 위한 라이브러리입니다.

이미지 인식 라이브러리:

1. tesserocr: tesserocr은 이미지를 인식하기 위해 OCR 기술을 사용하는 Python입니다.핵심은 tesseract를 API 계층으로 캡슐화하는 것이므로 tesserocr을 설치하기 전에 tesseract를 설치해야 합니다.

크롤러 프레임워크

1. pyspider: pyspider는 중국어 binux로 작성된 강력한 웹 크롤러 시스템입니다.강력한 WebUI, 스크립트 편집기, 작업 모니터, 프로젝트 관리 및 결과 프로세서가 있습니다.여러 데이터베이스 백엔드 및 여러 메시지를 지원합니다.Queue, JavaScript 렌더링 페이지 크롤링 . 종속 라이브러리는 PhantomJS입니다.

2. Scrapy: 매우 강력하며 많은 종속 라이브러리가 있습니다.

Supongo que te gusta

Origin blog.csdn.net/weixin_44617651/article/details/128557774
Recomendado
Clasificación