크롤러의 정규식, xpath, bs4

크롤러는 웹 페이지 작업을 수행하기 위해 브라우저를 시뮬레이션하기 위해 사람을 대체하는 것입니다.
1 정규식
첫 번째 기능은 데이터 수집, 데이터 마이닝, AI 등에 자주 사용되는 데이터를 캡처하는 것입니다. 두
번째 기능은 티켓 잡기 등을 수행하는 것
입니다. *?
그 중. *는 줄 바꿈하지 않는 문자열과 일치하는 것을 의미하고 물음표는 가능한 한 짧은 문자와 일치하는 것을 의미합니다.

다음은 예입니다. (웹 페이지의 소스 코드를 얻으려면 웹 페이지의 빈 공간에 넣고 마우스 오른쪽 버튼을 클릭하여 웹 페이지의 소스 코드를 볼 수 있습니다.)
MyStr = '' '

<link rel="apple-touch-icon" href="https://img3.doubanio.com/f/movie/d59b2715fdea4968a450ee5f6c95c7d7a2030065/pics/movie/apple-touch-icon.png">
<link href="https://img3.doubanio.com/f/shire/bf61b1fa02f564a4a8f809da7c7179b883a56146/css/douban.css" rel="stylesheet" type="text/css">
<link href="https://img3.doubanio.com/f/shire/ae3f5a3e3085968370b1fc63afcecb22d3284848/css/separation/_all.css" rel="stylesheet" type="text/css">
<link href="https://img3.doubanio.com/f/movie/8864d3756094f5272d3c93e30ee2e324665855b0/css/movie/base/init.css" rel="stylesheet">
<script type="text/javascript">var _head_start = new Date();</script>
<script type="text/javascript" src="https://img3.doubanio.com/f/movie/0495cb173e298c28593766009c7b0a953246c5b5/js/movie/lib/jquery.js"></script>
<script type="text/javascript" src="https://img3.doubanio.com/f/shire/92c148e64e4f81dc6fad7f3355308ee8cacecd92/js/douban.js"></script>
<script type="text/javascript" src="https://img3.doubanio.com/f/shire/0efdc63b77f895eaf85281fb0e44d435c6239a3f/js/separation/_all.js">

'' '
import re
fpn = r'<링크. ? href = "(. ?)" '
r = re.findall (fpn, MyStr)
for i in r :
print (i)

프로그램을 실행하여 원하는대로 크롤링
2. 두 번째는 xpath입니다 (불확실한 경로를 나타내며 경로를 확인한 후 원하는 것을 얻을 수 있음) (웹 페이지를 마우스 오른쪽 버튼으로 클릭하여 해당 Xpath 경로를 확인합니다. ,하지만 처음으로하는 것이 가장 좋습니다.)
위 URL의 콘텐츠를 크롤링하는 것도 마찬가지입니다. 코드는 다음과 같습니다.

# 먼저
lxml에서 요소 객체
생성 import etree e = etree.HTML (MyStr) #
탐색 시작
r = e.xpath ( "// link / @ href")
for i in r :
print (r)

코드에있는 일부 명령문의 의미
// 레이블 아래의 모든 데이터
/ 레이어별로 조회
@ select attribute
3 bs4 #이
두 가지 메서드 사용 find ()는 첫 번째 데이터를 반환
find all ()은 모든 데이터를 반환합니다.

bs4의 라이브러리를 간략하게 소개합니다. 뷰티플 수프는 HTML 또는 XML 파일에서 데이터를 추출 할 수있는 Python 라이브러리입니다. 자주 사용하는 변환기를 사용하여 문서 탐색, 검색 및 문서 수정의 일반적인 방법을 수행 할 수 있습니다. 뷰티플 수프를 사용하면 몇 시간 또는 며칠을 절약 할 수 있습니다. 근무 시간
https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#에서 관련 문서의 소개를 볼 수 있습니다.

우리는 여전히 1에서 URL을 크롤링합니다. 예제 코드는 다음과 같습니다
. bs4 import BeautifulSoup
soup = BeautifulSoup (MyStr, 'lxml')
r = soup.find_all ( 'link')
for i in r :
print (i.get ( 'href' ))

추천

출처blog.csdn.net/qwerty1372431588/article/details/104862930