화이트 빠르게 파충류을 경험 기어시나 추세

첫째, 어떤 준비가 있어야합니다, 물론 전제는 파이썬의 기초를 이해 할 필요가있다.

설치 언어 환경 및 도구가 필요 :
1, python3.6.5 파이썬 내가 버전을 사용하고
2 세 라이브러리를 요청하는
요청이 PIP3 설치 : 설치 명령
3, 아름다운 수프
설치 명령 : PIP3는 BS4 설치
4, LXML의
설치 명령 : pip3 LXML 설치를
5, Pycharm
IDE 공식 웹 사이트 주소의 파이썬은 :은 https : //www.jetbrains.com/pycharm/
물론 직접 터미널에서 인코딩

코드 :
파이썬 프로젝트와 pycharm을 만든 다음 같은 test.py 같은 파이썬 파일을 만든 다음 한 후 실행하려면 다음 코드를 붙여 넣습니다.

import requests
from bs4 import BeautifulSoup

mheaders = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "en-US,en;q=0.9,zh-CN;q=0.8,zh-TW;q=0.7,zh;q=0.6",
    "Cache-Control": "max-age=0",
    "Connection": "keep-alive",
    "Host": "s.weibo.com",
    "Sec-Fetch-Mode": "navigate",
    "Sec-Fetch-Site": "none",
    "Sec-Fetch-User": "?1",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36"
}

targetUrl = 'https://s.weibo.com/top/summary?cate=realtimehot'

response = requests.get(targetUrl, headers=mheaders).text
soup = BeautifulSoup(response, 'lxml')
sort = 0
for hot_td in soup.find_all('td', class_="td-02"):
    # 标题
    hotTitle = hot_td.find('a').string
    sort += 1
    print('第%s位  %s ' % (sort, hotTitle))

결과를 입력 :
그림 삽입 설명 여기
간단한 설명 :
1, 요청 자간 네트워크는 단순한 HTTP GET \ 포스트 요청과 다른 방법을 제공하는 파이썬 라이브러리입니다. requests.get (에서 targetUrl, 헤더 = mheaders)를 얻을 여기에 대표적인 모드 요청을 얻을 것입니다, 브라우저 요청 위장 요청 헤더에 제공되고, 요청이 해제되지 않도록 차단됩니다.

2, BeautifulSoup로 우리가 크롤링 할 찾을 대신 html 태그의 정규 표현식을 사용할 수 있습니다. soup.find_all ( 'TD', 클래스는 _ = "TD-02")를 대신하여 모든 클래스 = "TD-02"는 TD 태그를 찾습니다. 다음 페이지 소스보기는 크롤링보기 할 수있다 대상 사이트의 내용을 볼 수 있습니다 :

<td class="td-02">
   <a href="/weibo?q=%23%E6%B8%85%E6%98%8E%E8%BF%BD%E6%80%9D%E5%AE%B6%E5%9B%BD%E6%B0%B8%E5%BF%B5%23&Refer=new_time" target="_blank">清明追思家国永念
   </a>
</td>
...等等....

마찬가지로, hot_td.find는 ( 'A'). 문자열은 TD 태그 레이블은 우리가 뜨거운 검색의 콘텐츠를 크롤링하려는 내용이 포함됩니다 찾는 것입니다.

마지막으로 :
등등 다음 페이지 변경 IP, 창고 데이터를 잡아하는 방법으로, 거기에 많은 실제 프로젝트가 아니라 많이 고려 라이브러리를 잡고, 여기 때 파이썬 후 자율 학습, 크롤링 경험 작은 데모.

오늘 2020년 4월 4일이다, 청명절, 전국 각지에서 사람들이 전염병 영웅 오늘 침묵의 희생 싸울! 내 마음에 말을하지 마십시오! 조국 가자!

출시 일곱 개 원래 기사 · 원의 찬양 (14) · 보기 20000 +

추천

출처blog.csdn.net/u010823943/article/details/105308201