Blanc expérience rapidement les reptiles rampent Sina tendance

Tout d'abord, il doit y avoir une certaine préparation, bien sûr, la prémisse est la nécessité de comprendre les bases du python.

environnement Langue d'installation et les outils nécessaires:
1, python3.6.5 Python J'utilise la version
2, trois bibliothèque demande
la commande d'installation: installation demandes PIP3
3, Belle soupe
commande d'installation: PIP3 installation BS4
4, lxml
commande d'installation: PIP3 installer lxml
5, PyCharm
un python d'adresse de site officiel IDE: https: //www.jetbrains.com/pycharm/
cours être encodées directement aussi dans le terminal

Le code:
créer PyCharm avec un projet python, puis créer un fichier python, comme test.py, puis collez le code suivant à courir après.

import requests
from bs4 import BeautifulSoup

mheaders = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "en-US,en;q=0.9,zh-CN;q=0.8,zh-TW;q=0.7,zh;q=0.6",
    "Cache-Control": "max-age=0",
    "Connection": "keep-alive",
    "Host": "s.weibo.com",
    "Sec-Fetch-Mode": "navigate",
    "Sec-Fetch-Site": "none",
    "Sec-Fetch-User": "?1",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36"
}

targetUrl = 'https://s.weibo.com/top/summary?cate=realtimehot'

response = requests.get(targetUrl, headers=mheaders).text
soup = BeautifulSoup(response, 'lxml')
sort = 0
for hot_td in soup.find_all('td', class_="td-02"):
    # 标题
    hotTitle = hot_td.find('a').string
    sort += 1
    print('第%s位  %s ' % (sort, hotTitle))

Entrez le résultat:
Insérer ici l'image Description
une explication simple:
1, demandes réseau tripartite est une bibliothèque Python qui fournit un moyen simple http get \ demandes postales et d' autres méthodes. requests.get (targetUrl, têtes = mheaders) obtenir ici est d'obtenir la demande de mode représentant, est fourni aux têtes de requête déguisées demande de navigateur, la demande est intercepté pour éviter de.

2, BeautifulSoup peut utiliser des expressions régulières au lieu de balises HTML pour nous trouver à analyser. soup.find_all (td, classe _ = "td-02") au nom Trouver tous class = "td-02" de la balise td. Voir la source de la page pour voir le contenu du site cible peut être regarder explorées comme suit:

<td class="td-02">
   <a href="/weibo?q=%23%E6%B8%85%E6%98%8E%E8%BF%BD%E6%80%9D%E5%AE%B6%E5%9B%BD%E6%B0%B8%E5%BF%B5%23&Refer=new_time" target="_blank">清明追思家国永念
   </a>
</td>
...等等....

De même, hot_td.find ( « a »). La chaîne est de trouver une étiquette dans la balise td prend contient le contenu que nous voulons analyser le contenu de la recherche chaude.

Enfin:
prenez la bibliothèque il y a beaucoup de projets réels , mais aussi tenir compte de beaucoup, comme la façon de saisir la page suivante, ip du changement, l' entreposage de données et ainsi de suite, voilà quand l'auto-étude après le python, l' expérience rampants une petite démo.

Aujourd'hui 2020 4 Avril Fête de Ching Ming, les gens à travers le pays pour combattre les héros de l'épidémie sacrifient de silence aujourd'hui! Ne dites pas, dans mon cœur! Venez patrie!

Publié sept articles originaux · louange won 14 · vues 20000 +

Je suppose que tu aimes

Origine blog.csdn.net/u010823943/article/details/105308201
conseillé
Classement